목차
1 범주형 자료
2 피어슨(Pearson)의 적합도 검정
3 독립성 검정
4 동질성 검정
5 대수선형모형
2 피어슨(Pearson)의 적합도 검정
3 독립성 검정
4 동질성 검정
5 대수선형모형
본문내용
_ij = ({ n_i. n_.j } / n ) TIMES A_ij
가 되어 다음과 같이 모형을 쓸 수 있다.
log M_ij ~=~ μ~ +~μ_1(i)~ +~ μ _2(j)~ +~ μ _12(ij)
(2.2)
여기서
sum_i μ_12(ij)~ =~ sum from j μ_12(ij) ~=~ 0
위의 두 모형 중 어느 것이 더 적합할 것인가를 판정하기 위해서는 각 모형에 따른 각 계수를 추정하여
log M_ij
를 추정한다. 즉
E_ij
를 구한다. 이 값과
O_ij
( = n_ij `)
의 차이의 제곱을 전부 더하여 이 값을 기초로 피어슨의 χ2-검정을 하든가 우도비(likelihood ratio)카이제곱검정을 행한다. 그 결과 모형에 관한 귀무가설이 채택되는 모형이 가장 적합하다고 판정한다.
모형을 (2.1)식과 같이 놓았을 때 χ2-검정의 절차를 생각해보자. 귀무가설은 다음과 같다.
H_0 ~:
(2.1)식의 대수선형모형이 자료에 적합하다.
(즉, 두 변수는 서로 독립이다)
(2.1)식의 대수선형모형에 의해
E_ij
를 추정하고 다음과 같은
L
통계량을 구한다.
L = sum {(O_ij - E_ij )^2} over E_ij
이는 근사적으로 χ2분포를 따르며 자유도는 다음과 같다.
df ~=~ cell(칸)의~ 수 ~-~ 귀무가설모형의~모수의~수
즉 예로 3×3 분할표에서는 추정된 모수가
μ,~μ_{1(1)},~μ_{1(2)},~μ_{2(1)},~μ_{2(2)}
등 5개이므로 9-5=4가 된다.(
smallsum μ_1(i) ~=~ smallsum μ_2(j) ~=~0에 ~의하여~μ_1(3) 과 ~ μ_2(3)
는 자동으로 추정된다)
다음과 같은 가설도 생각해보자.
H_0
: (2.2)식의 대수선형모형이 자료에 적합하다. (2.3)
(즉, 두 변수의 교호작용이 존재한다)
이 경우에
L
통계량의 자유도는 0이 되어 이러한 귀무가설에 대한 검정은 불가능하다.
예를 들어 2×2 분할표에서는 추정된 모수가
μ,~μ_1(1) , ~μ_2(1) ,~ μ_12(11)
(나머지는 자동으로 추정된다)이므로
d.f~ =` 4`-` 4 `=`0
이 된다. ( 3×3에서도 쉽게 확인 할 수 있다) 그리고 이러한 완전모형에서는
E_ij
가 오차 없이
O_ij
로 추정되므로
X^2
의 값이 의미가 없다. 즉 최고차 항의 교호작용이 들어있는 모형의 추정은 불가능하다. 이는 반복이 없는 이원배치에서 이차의 교호작용을 검출할 수 없는 사실과 일맥상통한다.
그래도 여전히 r×c의 2차원 분할표에서는 (2.1)의 모형검정을 통해 두 변수가 독립인가에 대한 검정이 가능하다. 그리고 그 검정통계량의 자유도는 앞절의 독립성검정통계량
X^2
의 자유도와 동일하다.
이제 3차원 분할표의 대수모형의 완전모형을 생각해보자.
log M_ij ~=~ μ + μ_1(i) + μ_2(j) + μ _3(k) + μ _12(ij) + μ _13(ik) + μ _23(jk) + μ _123(ijk) #
#~;~i~=~1,ldots,r,~~j~=~1,ldots,c,~~k~=~1,ldots,d
이 경우에 다음과 같은 가설의 검정이 가능하다.
H_01 ~&:~log M_ijk ~=` μ` +`μ_1(i) ` +` μ _2(j)` +` μ _3(k)~,
~~ 또는#
H_02 ~&:~log M_ijk ~=` μ` +`μ_1(i) ` +` μ _2(j) ` +` μ _3(k) `+` μ_{12(ij)} ##Vdots## H_05 ~&:~log M_ijk ~=` μ` +`μ_1(i)` +` μ _2(j) ` +` μ _3(k) `+` μ_{12(ij)}`+` μ_{13(ik)}##Vdots##
H_08 ~&:~log M_ijk ~=` μ` +`μ_1(i)` +` μ _2(j)` +` μ _3(k) `+` μ_{12(ij)}`+` μ_{13(ik)} `+`μ_{23(jk)}
예를 들어
H_02
를 검정하여 기각되지 않는다면
A_i 와~ B_j
의 두 변수간에 교호작용이 존재함을 의미한다. 가설이 기각되지 않는다는 것은 그 모형에 의해서 적합한 기대도수의 값이 관측도수의 값과 비슷하다는 뜻이고, 그 모형이 자료를 잘 설명해 주고 있다는 의미이기 때문이다.
이상에서 알 수 있듯이 대수선형모형검정법은 다차원 분할표에서 여러 변수간의 교호작용의 존재를 검정한다. 2차원, 3차원 분할표의 검정은 일반적인 분할표의 독립성검정으로도 가능하다. 그러나 그 이상의 분할표에서는 3변수간의 교호작용도 검출해내므로 이 대수선형모형검정법이 진가를 발휘하게 된다.
[예제 4] 다음과 같은 2×2×2 분할표(3차원 분할표)가 주어져 있다. 각 변수를 A, B, C라 하며, 각 변수마다 2개의 범주를 갖고 있다. 세 변수가 서로 독립적인지를 검정하시오.
A1
A2
C1
C2
C1
C2
B1
16
5
32
21
B2
43
18
36
35
<풀이> SPSS에서 로그선형분석 선택
<참고> 분산분석표를 보면 대부분의 경우 귀무가설을 기각하고(모형이 적합하지 않음) 변수를 I, J, K, I*J, I*K로 선택한 경우와 I, J, K, I*J, I*K, J*K로 선택한 경우의 두가지 경우에서만 귀무가설이 채택되었다.(모형이 적합하다) 그러나 각 변수에 대한 계수를 추정한 결과 J*K는 유의하지 않게 나타나므로, 변수를 I, J, K, I*J, I*K로 선택한 모형이 가장 적합하다고 판정한다. 모형에 A와 B, A와 C의 교호작용이 포함되므로 이들 변수 간에는 독립성이 존재하지 않는다고 판단하게 되는데, 이는 앞서의 피어슨 검정과 동일한 결과이다.
앞서도 언급하였지만 대수선형모형에 의한 분석은 피어슨검정에 의한 이차원 분할표의 분석외에도 다차원 분할표에서 3차 이상의 교호작용을 검색하는데 이용된다. 그러나 위에서도 알 수 있듯이, 자유도의 문제로 k차원 분할표에서 k차의 교호작용은 검정할 수 없고 (k-1)차의 교호작용까지만 검정할 수 있다.
또한 출력결과에 요인들 수준간의 평균차이를 검정하였는데, 이는 각 수준의 합이 고정(fixed)되어 있지 않는 확률변수라면 이러한 평균차이에도 관심을 가질 수 있을 것이다.
가 되어 다음과 같이 모형을 쓸 수 있다.
log M_ij ~=~ μ~ +~μ_1(i)~ +~ μ _2(j)~ +~ μ _12(ij)
(2.2)
여기서
sum_i μ_12(ij)~ =~ sum from j μ_12(ij) ~=~ 0
위의 두 모형 중 어느 것이 더 적합할 것인가를 판정하기 위해서는 각 모형에 따른 각 계수를 추정하여
log M_ij
를 추정한다. 즉
E_ij
를 구한다. 이 값과
O_ij
( = n_ij `)
의 차이의 제곱을 전부 더하여 이 값을 기초로 피어슨의 χ2-검정을 하든가 우도비(likelihood ratio)카이제곱검정을 행한다. 그 결과 모형에 관한 귀무가설이 채택되는 모형이 가장 적합하다고 판정한다.
모형을 (2.1)식과 같이 놓았을 때 χ2-검정의 절차를 생각해보자. 귀무가설은 다음과 같다.
H_0 ~:
(2.1)식의 대수선형모형이 자료에 적합하다.
(즉, 두 변수는 서로 독립이다)
(2.1)식의 대수선형모형에 의해
E_ij
를 추정하고 다음과 같은
L
통계량을 구한다.
L = sum {(O_ij - E_ij )^2} over E_ij
이는 근사적으로 χ2분포를 따르며 자유도는 다음과 같다.
df ~=~ cell(칸)의~ 수 ~-~ 귀무가설모형의~모수의~수
즉 예로 3×3 분할표에서는 추정된 모수가
μ,~μ_{1(1)},~μ_{1(2)},~μ_{2(1)},~μ_{2(2)}
등 5개이므로 9-5=4가 된다.(
smallsum μ_1(i) ~=~ smallsum μ_2(j) ~=~0에 ~의하여~μ_1(3) 과 ~ μ_2(3)
는 자동으로 추정된다)
다음과 같은 가설도 생각해보자.
H_0
: (2.2)식의 대수선형모형이 자료에 적합하다. (2.3)
(즉, 두 변수의 교호작용이 존재한다)
이 경우에
L
통계량의 자유도는 0이 되어 이러한 귀무가설에 대한 검정은 불가능하다.
예를 들어 2×2 분할표에서는 추정된 모수가
μ,~μ_1(1) , ~μ_2(1) ,~ μ_12(11)
(나머지는 자동으로 추정된다)이므로
d.f~ =` 4`-` 4 `=`0
이 된다. ( 3×3에서도 쉽게 확인 할 수 있다) 그리고 이러한 완전모형에서는
E_ij
가 오차 없이
O_ij
로 추정되므로
X^2
의 값이 의미가 없다. 즉 최고차 항의 교호작용이 들어있는 모형의 추정은 불가능하다. 이는 반복이 없는 이원배치에서 이차의 교호작용을 검출할 수 없는 사실과 일맥상통한다.
그래도 여전히 r×c의 2차원 분할표에서는 (2.1)의 모형검정을 통해 두 변수가 독립인가에 대한 검정이 가능하다. 그리고 그 검정통계량의 자유도는 앞절의 독립성검정통계량
X^2
의 자유도와 동일하다.
이제 3차원 분할표의 대수모형의 완전모형을 생각해보자.
log M_ij ~=~ μ + μ_1(i) + μ_2(j) + μ _3(k) + μ _12(ij) + μ _13(ik) + μ _23(jk) + μ _123(ijk) #
#~;~i~=~1,ldots,r,~~j~=~1,ldots,c,~~k~=~1,ldots,d
이 경우에 다음과 같은 가설의 검정이 가능하다.
H_01 ~&:~log M_ijk ~=` μ` +`μ_1(i) ` +` μ _2(j)` +` μ _3(k)~,
~~ 또는#
H_02 ~&:~log M_ijk ~=` μ` +`μ_1(i) ` +` μ _2(j) ` +` μ _3(k) `+` μ_{12(ij)} ##Vdots## H_05 ~&:~log M_ijk ~=` μ` +`μ_1(i)` +` μ _2(j) ` +` μ _3(k) `+` μ_{12(ij)}`+` μ_{13(ik)}##Vdots##
H_08 ~&:~log M_ijk ~=` μ` +`μ_1(i)` +` μ _2(j)` +` μ _3(k) `+` μ_{12(ij)}`+` μ_{13(ik)} `+`μ_{23(jk)}
예를 들어
H_02
를 검정하여 기각되지 않는다면
A_i 와~ B_j
의 두 변수간에 교호작용이 존재함을 의미한다. 가설이 기각되지 않는다는 것은 그 모형에 의해서 적합한 기대도수의 값이 관측도수의 값과 비슷하다는 뜻이고, 그 모형이 자료를 잘 설명해 주고 있다는 의미이기 때문이다.
이상에서 알 수 있듯이 대수선형모형검정법은 다차원 분할표에서 여러 변수간의 교호작용의 존재를 검정한다. 2차원, 3차원 분할표의 검정은 일반적인 분할표의 독립성검정으로도 가능하다. 그러나 그 이상의 분할표에서는 3변수간의 교호작용도 검출해내므로 이 대수선형모형검정법이 진가를 발휘하게 된다.
[예제 4] 다음과 같은 2×2×2 분할표(3차원 분할표)가 주어져 있다. 각 변수를 A, B, C라 하며, 각 변수마다 2개의 범주를 갖고 있다. 세 변수가 서로 독립적인지를 검정하시오.
A1
A2
C1
C2
C1
C2
B1
16
5
32
21
B2
43
18
36
35
<풀이> SPSS에서 로그선형분석 선택
<참고> 분산분석표를 보면 대부분의 경우 귀무가설을 기각하고(모형이 적합하지 않음) 변수를 I, J, K, I*J, I*K로 선택한 경우와 I, J, K, I*J, I*K, J*K로 선택한 경우의 두가지 경우에서만 귀무가설이 채택되었다.(모형이 적합하다) 그러나 각 변수에 대한 계수를 추정한 결과 J*K는 유의하지 않게 나타나므로, 변수를 I, J, K, I*J, I*K로 선택한 모형이 가장 적합하다고 판정한다. 모형에 A와 B, A와 C의 교호작용이 포함되므로 이들 변수 간에는 독립성이 존재하지 않는다고 판단하게 되는데, 이는 앞서의 피어슨 검정과 동일한 결과이다.
앞서도 언급하였지만 대수선형모형에 의한 분석은 피어슨검정에 의한 이차원 분할표의 분석외에도 다차원 분할표에서 3차 이상의 교호작용을 검색하는데 이용된다. 그러나 위에서도 알 수 있듯이, 자유도의 문제로 k차원 분할표에서 k차의 교호작용은 검정할 수 없고 (k-1)차의 교호작용까지만 검정할 수 있다.
또한 출력결과에 요인들 수준간의 평균차이를 검정하였는데, 이는 각 수준의 합이 고정(fixed)되어 있지 않는 확률변수라면 이러한 평균차이에도 관심을 가질 수 있을 것이다.