목차
5 비모수 상관계수
1) 스피어만의 순위상관계수
2) 켄달의 순위상관계수
1) 스피어만의 순위상관계수
2) 켄달의 순위상관계수
본문내용
에서 상관계수 r을 측정할 때 수량화할 수 있는 확률변수들에 대해서만 알아보았다. 그러나 자료분석을 하다보면 질적 확률변수들에 대해서도 상관관계를 측정해야 될 때가 있다. 이렇듯 질적 변수에 대하여 상관계수를 측정하고자 할 때 스피어만의 순위상관계수(Spearman's rank correlation coefficient)와 켄달의 순위상관계수(Kendall's rank correlation coefficient) 등의 비모수적 상관계수를 이용한다.
이러한 비모수적 상관계수는 자료가 질적 변수이거나 순위변수인 경우에만 국한해서 사용하지는 않는다. 수량적인 변수인 경우에도 자료의 모집단이 이변량정규분포를 따른다는 가정이 명백히 위배되거나, 또는 심히 의심스러울 때에 모집단의 분포를 가정하지 않은 비모수적 방법을 사용하게 된다.
1) 스피어만의 순위상관계수
스피어만의 순위상관계수를 구하는 절차는 다음과 같다.
1.
(x_1 , y_1 ),(x_2 , y_2 ), ldots , (x_n , y_n )
의 자료들에서 각 변수들 내의 순위를 다음과 같이 구한다.
(R_1 ,` R_1^' ) , ~(R_2 ,` R_2^' ) , LDOTS , (R_n ,`R_n^' )
,
여기서,
R_i 는~ (x_1 ,` x_2 , `ldots ,` x_n )`에서 ~x_{i}의 ~순위
,
R_i^' 는 ~ (y_1 , `y_2 ,` ldots , `y_n )`에서 ~y_{i} 의 ~순위
이다.
2. 순위의 차이
d_i
를 구한다. 즉,
d_i = R_i - R_i^' , ~i=1,2,...,n
.
3. 차이의 제곱합
{sum from i=1 to n } d_i^2
을 이용해 스피어만 순위상관계수
r_s
를 다음 식으로 구한다.
r_s ~=~ 1- {6smallsum d_i^2} over {n(n^2 -1)}
x가 증가함에 따라 y도 정확히 증가한다면
d_i
들의 값은 모두 0이고, 따라서
r_s
의 값은 1이 될 것이다. 반대로 x가 증가함에 따라 y가 정확히 감소한다면
순위가
(1,n),(2,n-1),ldots,(n,1)
의 형태가 된다. 그러므로
d_i =n-(2i-1)
이고, 제곱합은
{sum from i=1 to n } d_i^2 = {2(n^3 -n)}/6
이 되어
r_s
는 -1임을 알 수 있다. 스피어만 상관계수는 순위들의 피어슨 상관계수와 같다.
[예제 6] 국제 테니스대회에 8개국 국가대표가 참가하였는데 운영위원 및 스포츠기자들이 각 8개팀에 대한 실력을 평가한 순위가 다음과 같다. 이때 두 집단의 평가에 대한 스피어만 순위상관계수를 구하시오.
대표참가팀
A B C D E F G H
운영위원회의 순위 (X)
스포츠기자의 순위 (Y)
1 2 3 4 5 6 7 8
1 4 3 2 6 5 8 7
<풀이> 각 순위와 순위차이에 대한 편차제곱합을 구하면 다음과 같다.
팀 명
X의 순위
Y의 순위
D = X - Y
D2
A
B
C
D
E
F
G
H
1
2
3
4
5
6
7
8
1 4
3
2
6
5
8
7
0
-2
0
2
-1
1
-1
1
0
4
0
4
1
1
1
1
따라서 순위상관계수
r_s
는
r_s ~= ~1- {6 smallsum d_i^2 } over { n^3 - n }
~= ~1 - { 6 cdot 12} over {8^3 - 8 } ~= ~0.857
이다. 순위평가에 대한 순위상관계수는 비교적 높은 상관관계를 나타내고 있다.
2) 켄달의 순위상관계수
켄달의 순위상관계수의 계산절차는 다음과 같다.
1.
(x_1 , y_1 ),(x_2 , y_2 ), ldots , (x_n , y_n )
의 자료들에서 각 변수들 내의 순위를 구한 뒤 x의 순위에 따라 자료의 순위를 나열한다.
(1 , `R_1^* ) , `(2 , `R_2^* ) ,` LDOTS `, `(n ,`R_n^* )
,
여기서
R_i^* 는~ x의 ~ 순위가 ~ i일~때 ~y 의 ~순위
이다.
2.
R_i^* > R_j^* ~(i
가 되는 경우의 수의 합 Q를 구한다.
Q~=~ {sum sum from i
여기서
phi(x)= cases { 0,~x le 0#
1,~x > 0 }
3. Q를 이용해 켄달의 순위상관계수
tau
를 구한다.
tau ~=~ 1- {4Q} over n(n-1)
[예제 7] [예제 6]의 자료를 이용하여 켄달의 순위상관계수를 구하시오.
<풀이> X의 순위 순서대로 나열하면 다음과 같다.
참가팀
A B C D E F G H
X의 순위
Y의 순위
1 2 3 4 5 6 7 8
1 4 3 2 6 5 8 7
Y의 순위에서 Q를 계산해보자. A의 순위는 1로 더 작은 것의 개수는 없다. B의 순위 4보다 적은 C의 3과 D의 2가 존재하므로 더 작은 것의 개수가 2이다. 이런 식으로 차례로 구하면 0,2,1,0,1,0,1,0이다. 이들 값을 모두 더하면 Q가 된다. 이를 이용해 켄달의 상관계수
tau
를 구한다.
tau ~= ~ 1- {4 cdot 5} over {8(8-1)}~=~0.64
위에서 구한 상관계수들을 SPSS를 이용해 구해보면 결과가 같다는 사실을 알 수 있다.
연 습 문 제
[1] Y와 X가 2차함수의 관계를 갖는 자료를 제시하고 이의 상관계수가 0이 되는지를 계산하시오.
[2] 다음 표는 12명의 여자의 나이와 혈압을 나타낸 것이다.
나이 (x)
56 42 72 36 63 47 55 49 38 42 68 60
혈압 (y)
147 125 160 118 179 128 150 145 115 140 152 155
(a) 산포도를 그려라.
(b) 상관계수를 구하여라.
(c)
H_O ~:~ rho=0
을 유의수준 5%에서 검정하여라.
(d)
rho
에 대한 95%신뢰구간을 구하여라.
[3] 미인 콘테스트에서 10명의 후보자에 대한 2명의 심사위원의 평점이 다음과 같을 때 피어슨 상관계수, 스피어만, 켄달의 상관계수를 각각 구하여라.
심사원
1 2 3 4 5 6 7 8 9 10
갑
을
89 86 84 83 80 74 68 59 50 38
85 82 90 76 67 84 50 80 39 61
이러한 비모수적 상관계수는 자료가 질적 변수이거나 순위변수인 경우에만 국한해서 사용하지는 않는다. 수량적인 변수인 경우에도 자료의 모집단이 이변량정규분포를 따른다는 가정이 명백히 위배되거나, 또는 심히 의심스러울 때에 모집단의 분포를 가정하지 않은 비모수적 방법을 사용하게 된다.
1) 스피어만의 순위상관계수
스피어만의 순위상관계수를 구하는 절차는 다음과 같다.
1.
(x_1 , y_1 ),(x_2 , y_2 ), ldots , (x_n , y_n )
의 자료들에서 각 변수들 내의 순위를 다음과 같이 구한다.
(R_1 ,` R_1^' ) , ~(R_2 ,` R_2^' ) , LDOTS , (R_n ,`R_n^' )
,
여기서,
R_i 는~ (x_1 ,` x_2 , `ldots ,` x_n )`에서 ~x_{i}의 ~순위
,
R_i^' 는 ~ (y_1 , `y_2 ,` ldots , `y_n )`에서 ~y_{i} 의 ~순위
이다.
2. 순위의 차이
d_i
를 구한다. 즉,
d_i = R_i - R_i^' , ~i=1,2,...,n
.
3. 차이의 제곱합
{sum from i=1 to n } d_i^2
을 이용해 스피어만 순위상관계수
r_s
를 다음 식으로 구한다.
r_s ~=~ 1- {6smallsum d_i^2} over {n(n^2 -1)}
x가 증가함에 따라 y도 정확히 증가한다면
d_i
들의 값은 모두 0이고, 따라서
r_s
의 값은 1이 될 것이다. 반대로 x가 증가함에 따라 y가 정확히 감소한다면
순위가
(1,n),(2,n-1),ldots,(n,1)
의 형태가 된다. 그러므로
d_i =n-(2i-1)
이고, 제곱합은
{sum from i=1 to n } d_i^2 = {2(n^3 -n)}/6
이 되어
r_s
는 -1임을 알 수 있다. 스피어만 상관계수는 순위들의 피어슨 상관계수와 같다.
[예제 6] 국제 테니스대회에 8개국 국가대표가 참가하였는데 운영위원 및 스포츠기자들이 각 8개팀에 대한 실력을 평가한 순위가 다음과 같다. 이때 두 집단의 평가에 대한 스피어만 순위상관계수를 구하시오.
대표참가팀
A B C D E F G H
운영위원회의 순위 (X)
스포츠기자의 순위 (Y)
1 2 3 4 5 6 7 8
1 4 3 2 6 5 8 7
<풀이> 각 순위와 순위차이에 대한 편차제곱합을 구하면 다음과 같다.
팀 명
X의 순위
Y의 순위
D = X - Y
D2
A
B
C
D
E
F
G
H
1
2
3
4
5
6
7
8
1 4
3
2
6
5
8
7
0
-2
0
2
-1
1
-1
1
0
4
0
4
1
1
1
1
따라서 순위상관계수
r_s
는
r_s ~= ~1- {6 smallsum d_i^2 } over { n^3 - n }
~= ~1 - { 6 cdot 12} over {8^3 - 8 } ~= ~0.857
이다. 순위평가에 대한 순위상관계수는 비교적 높은 상관관계를 나타내고 있다.
2) 켄달의 순위상관계수
켄달의 순위상관계수의 계산절차는 다음과 같다.
1.
(x_1 , y_1 ),(x_2 , y_2 ), ldots , (x_n , y_n )
의 자료들에서 각 변수들 내의 순위를 구한 뒤 x의 순위에 따라 자료의 순위를 나열한다.
(1 , `R_1^* ) , `(2 , `R_2^* ) ,` LDOTS `, `(n ,`R_n^* )
,
여기서
R_i^* 는~ x의 ~ 순위가 ~ i일~때 ~y 의 ~순위
이다.
2.
R_i^* > R_j^* ~(i
Q~=~ {sum sum from i
phi(x)= cases { 0,~x le 0#
1,~x > 0 }
3. Q를 이용해 켄달의 순위상관계수
tau
를 구한다.
tau ~=~ 1- {4Q} over n(n-1)
[예제 7] [예제 6]의 자료를 이용하여 켄달의 순위상관계수를 구하시오.
<풀이> X의 순위 순서대로 나열하면 다음과 같다.
참가팀
A B C D E F G H
X의 순위
Y의 순위
1 2 3 4 5 6 7 8
1 4 3 2 6 5 8 7
Y의 순위에서 Q를 계산해보자. A의 순위는 1로 더 작은 것의 개수는 없다. B의 순위 4보다 적은 C의 3과 D의 2가 존재하므로 더 작은 것의 개수가 2이다. 이런 식으로 차례로 구하면 0,2,1,0,1,0,1,0이다. 이들 값을 모두 더하면 Q가 된다. 이를 이용해 켄달의 상관계수
tau
를 구한다.
tau ~= ~ 1- {4 cdot 5} over {8(8-1)}~=~0.64
위에서 구한 상관계수들을 SPSS를 이용해 구해보면 결과가 같다는 사실을 알 수 있다.
연 습 문 제
[1] Y와 X가 2차함수의 관계를 갖는 자료를 제시하고 이의 상관계수가 0이 되는지를 계산하시오.
[2] 다음 표는 12명의 여자의 나이와 혈압을 나타낸 것이다.
나이 (x)
56 42 72 36 63 47 55 49 38 42 68 60
혈압 (y)
147 125 160 118 179 128 150 145 115 140 152 155
(a) 산포도를 그려라.
(b) 상관계수를 구하여라.
(c)
H_O ~:~ rho=0
을 유의수준 5%에서 검정하여라.
(d)
rho
에 대한 95%신뢰구간을 구하여라.
[3] 미인 콘테스트에서 10명의 후보자에 대한 2명의 심사위원의 평점이 다음과 같을 때 피어슨 상관계수, 스피어만, 켄달의 상관계수를 각각 구하여라.
심사원
1 2 3 4 5 6 7 8 9 10
갑
을
89 86 84 83 80 74 68 59 50 38
85 82 90 76 67 84 50 80 39 61
추천자료
품질관리기사 1차 기출문제
지능검사의 종류
평가도구의 질판단 기중
자신의 비만도를 측정하고 그에따른 질병과 관리법조사
[주택가격]우리나라 주택시장 경기변동의 특성과 이론적 분석
일반물리-공기의저항결과
신뢰도 와 타당도
현대자동차기업분석,현대모비스,자동차시장
현대모비스 (HYNDAI MOBIS)
1990년 2000년 노벨 경제학 수상자.ppt
통계학개론강의록
신뢰도 (정의, 개념, 종류, 타당도)
(결과) 총 인측정-흡광광도법(아스코르빈산 환원법) : 수질 시료 중에 총 인의 농도를 알아보...
신뢰도와 타당도에 대해 기술하고, 신뢰도와 타당도의 관계에 대해 설명하시오 [교육평가][사...