상관과 연관성 분석
본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

목차

1 연관성의 형태

2 상관계수

3 모상관계수의 추론

4 부분상관계수

5 비모수 상관계수

본문내용

한 분포형태를 이룬다. 표본의 크기가 상대적으로 클 경우에만 r의 분포가 모상관계수에 접근하고 표본이 적을 때는 표본상관계수의 분포는 매우 다양하게 나타난다. 그래서 r을 일정한 분포를 갖는 새로운 변수로 변환하고 일단 그것을 사용하여 일련의 추정을 실시한 다음, 그 결과로 다시 모상관계수에 대한 추정을 실시하는 방법을 고안하였다.
피셔(R. A. Fisher)는 적어도 표본의 크기가 10보다 크다는 가정 하에 표본상관계수 r의 값을 변형시켜 정규분포를 따르는 새로운 변수를 제안하였다. 이를 피셔의 Zr 확률변수라 하고 다음과 같이 정의한다.
Z_r ~=~ 1 over 2 ln ( 1+r over 1-r )
(4.1)
위의 확률변수는 정규분포를 따르며, 평균과 분산은 다음과 같다.
&E(Z_r ) & = & 1 over 2 ln ( 1+rho over 1-rho ) #
&Var(Z_r ) & =& 1 over n-3
따라서
E(Z_r )
에 대한 100(1-
alpha
)%의 신뢰구간은 다음과 같다.
Z_r - z_alpha/2 cdot 1 over sqrt n-3
le ~E(Z_r ) ~le Z_r + z_alpha/2 cdot 1 over sqrt n-3
여기서 신뢰구간의 하한을 L로 상한을 U로 놓으면 다음과 같이
rho
의 신뢰구간을 구할 수 있다.
L~ le 1 over 2 ln ( 1+rho over 1-rho ) ~le ~U
,
{ e^2L - 1 } over { e^2L +1 } le ~rho ~le { e^2U -1} over
{ e^2U + 1}
.
[예제 2] 이변량정규분포로부터 추출한 표본의 크기가 n=10이고 표본상관계수가 r=0.63이라고 할 때 모상관계수
rho
에 대한 95%의 신뢰구간을 구하시오.
<풀이> 우선 r=0.63일 때 확률변수 Zr의 값은
Z_r ~=~ 1 over 2 ln ( 1+r over 1-r ) ~= ~ 1 over 2 ln ( 1+0.63 over 1-0.63 )~ =~0.741
이다. 그리고
z_0.025
= 1.96 이므로
E(Z_r )
의 95% 신뢰구간의 상
cdot
하한은 각각 다음과 같다.
L& =& 0.741 - 1.96 1 over sqrt 10-3 = 0.0002#
U &= &0.741 + 1.96 1 over sqrt 10-3 = 1.4818
따라서 모상관계수
rho
에 대한 95% 신뢰구간은 다음과 같다.
{ e^2(0.0002) - 1 } over { e^2(0.0002) + 1 } ~ le ~ rho~le~
{ e^2(1.4818) - 1 } over { e^2(1.4818) + 1 }
,
0.0002 ~le ~rho ~le ~0.9018
.
위의 결과를 보면 신뢰구간의 폭이 너무나 넓어서 분석의 의미가 없다는 것을 알 수 있다. 이는 표본의 수가 작기 때문에 생기는 현상이다. 어느 정도의 표본수가 있어야 그럴듯한 추정이 될 것인지를 n을 20, 30 등을 대입해보아 각자 확인해 보기 바란다.
2) 모상관계수에 대한 가설검정
가.
rho
=0에 대한 가설검정
이변량 정규 모집단을 구성하는 두 변수 X와 Y사이에 아무런 상관관계가 존재하지 않는다는 귀무가설 즉
H_0 : rho = 0 ~ vs~H_1 :rho ne 0
을 검정하기로 한다. 그런데
이 귀무가설의 의미는 두 변수 간에 선형 연관성이 없다는 것을 의미한다. 또한 두 변수 간에 연관성이 없다는 귀무가설을 기각하게 되면 두 변수 간에 선형 연관성이 존재함을 의미한다.
귀무가설
rho
=0이 사실일 때, 상관계수의 분포는 평균이 0이고, 좌우대칭이다. 이 분포는 정규분포를 하지 않는다. 그러나
rho
=0 일 때 상관계수의 분포가 계산되어 있으며 분포의 백분율이 부록의 표에 주어져 있다. 분포는 평균 0을 중심으로 대칭이므로 하한쪽의 백분율은 대응되는 상한쪽의 백분율에 음의 부호를 붙이면 된다.
예를 들어 n=20인 경우, 유의수준이 1%라고 한다면 양측검정은 0.01/2=0.005에 대한 임계값을 구해야하므로 하한(lower bound) 쪽의 임계값은 -0.561이다. 즉, 표본상관계수 r의 값이 -0.561보다 작거나 혹은 0.561보다 크면 귀무가설은 기각되어진다. 물론
H_1 : rho >0
등의 단측검정도 가능하다.
모상관계수에 대한 가설검정을 주어진 표를 이용하지 않고, t분포를 이용해서 수행하면 다음과 같다.
rho
=0 이라고 가정했을 경우 표본상관계수 r의 분산은 다음과 같다.
Var(r) = 1-r^2 over n-2
따라서 상술한 귀무가설
H_0 `:`
rho
=0을 검정하는데 이용되는 검정통계량은 다음과 같다.
t_n-2 ~=~ r-0 over sqrt Var(r) ~=~r sqrt{ n-2 over 1-r^2 }
위의 통계량은 자유도가 n-2 인 t분포를 따르게 된다. 그러므로
| t_n-2 |
>t(
alpha
/2; n-2)이면
H_O `:` rho
=0을 기각한다. 물론 이 검정통계량도 표본규모가 커지면 (n>30) 정규분포에 가까워진다.
[예제 3] [예제 1]의 자료는 X와 Y 간에 실제적인 선형상관관계가 존재한다는 사실에 대한 증거를 제공하고 있다고 할 수 있는가? 즉
rho
=0인가를 검정하시오.(
alpha
=10%) 단, 상관계수의 분포를 이용한 방법과 t분포에 의한 검정을 모두 행하시오.
<풀이>
① 표본의 상관계수가 0.63이고, n=8이므로 임계값은 0.62149이다. 그러므로 상관계수가 0이라고 할 수 없다.
② 자유도가 n-2=6 이므로, 유의수준 10%에서 t분포의 임계값은 t(0.05;6)=1.943이다. 그리고 r=0.63이므로 검정통계량의 값은 다음과 같다.
t ~=~ r sqrt{ n-2 over 1-r^2 }~=~0.63 sqrt {8-2 over 1-0.63^2 }
~=~1.987
이는 임계값보다 약간 크므로 귀무가설을 기각한다. 그러므로 이 자료는 두 변수 간에 실제적인 선형관계가 존재한다는 근거를 제공한다.
참고
이는 앞의 SPSS 출력에서 p-값(유의확률)이 0.0966(<0.01)이었던 결과와 일치함을 확인할 수 있다.

키워드

  • 가격2,300
  • 페이지수13페이지
  • 등록일2001.06.24
  • 저작시기2001.06
  • 파일형식한글(hwp)
  • 자료번호#189883
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니