목차
1.개요
2.단순 선형 회귀분석
1)선형 회귀모형의 기본가정
2)회귀 모형의 종류
3)변수설명
4)선형 회귀계수(모수)의 추정
5)회귀계수의 성질
6)적합도 검토(회귀직선의 유의성 검정)
7)y의 기대치에 대한 신뢰구간
8)y의 개별관측치에 대한 신뢰구간
9)잔차분석
3.다중 선형 회귀분석
1)다중 선형 회귀계수의 추정
2)적합된 값과 잔차(Fitted Values and Residuals)
3)y의 기대치에 대한 신뢰구간
4)y의 개별관측치에 대한 예측구간
5)분산분석(Analysis of Variance)
6)회귀식의 적합도 검토
7)잔차분석
8)변수변환
9)영향력 진단(Influence Diagnostics)
10)다중공선성(Multicollinearity)
11)설명변수의 선택
4. 참고문헌
2.단순 선형 회귀분석
1)선형 회귀모형의 기본가정
2)회귀 모형의 종류
3)변수설명
4)선형 회귀계수(모수)의 추정
5)회귀계수의 성질
6)적합도 검토(회귀직선의 유의성 검정)
7)y의 기대치에 대한 신뢰구간
8)y의 개별관측치에 대한 신뢰구간
9)잔차분석
3.다중 선형 회귀분석
1)다중 선형 회귀계수의 추정
2)적합된 값과 잔차(Fitted Values and Residuals)
3)y의 기대치에 대한 신뢰구간
4)y의 개별관측치에 대한 예측구간
5)분산분석(Analysis of Variance)
6)회귀식의 적합도 검토
7)잔차분석
8)변수변환
9)영향력 진단(Influence Diagnostics)
10)다중공선성(Multicollinearity)
11)설명변수의 선택
4. 참고문헌
본문내용
nation ), 맬로우스 (Mallows)의
rm C_p`
, 아카이케 (Akaike)의 정보기준(Information Criteria, AIC) 등이 있다. 모형선택기준은 변수선택의 절대적인 판단기준이라기 보다는 하나의 참고정보라고 할 수 있다. 연구자는 이들 기준들에 따라 적절한 것으로 판단되는 몇 개의 모형을 선발한 다음, 잔차 (Residual ) 및 영향력 분석, 다중공선성, 자료해석 상의 실제적인 의미 등을 종합적으로 고려하여 최종적인 모형을 선택하는 것이 바람직하다.
변수선택의 방법
전진선택법 (Forward Selection )
전지선택법의 초기 모형은 절편만을 포함한다. 그 상태에서
f`
개의 후보 변수들 중
F`
통계량의 값을 가장 크게 하는 변수 하나르 찾는다. 그 변수를
x_(1)`
이라고 하자. 변수
x_(1)`
의 기여도에 대한
F`
검정결과가 유의수준
alpha`
(보통 0.5)에서 유의하면 다으 단계로 넘어가고, 그렇지 않으면 상수항만의 휘귀모형으로 귀착된다.
j`
번째
(j=2,3,…)
단계에서는 이미
(j-1)`
개의 변수가 선택되어 회귀모형에 포함되어 있다. 그 변수들을
x_(1) , …, x_(j-1)`
이라고 하자. 아직 선택되지 않은 변수들 중에서 부분
F`
통계량의 값을 가장 크게 하는 변수 하나를 찾는다. 이를
x_{(j`)}`
라고 할 때,
x_{(j`)}`
에 대한 부분
F-`
검정(Partial F test)결과가 유의수준
alpha`
에서 유의하면 또 변수를 추가선택하기 위하여 다음 단계로 넘어가고 그렇지 않으면
x_{(j`)}`
를 버린 채
x_(1) , …, x_(j-1)`
를 설명변수로 하는 축소모형으로 귀착된다. 위에서 나온 부분
F-
검정에 대해 설명하면 다음과 같다. 설명변수
x_j^*`
에 대한 부분 F 검정통계량은
Partial
F ~=~ {SSR (x_(1) , …, x_(j-1)` , x_j^* ) - SSR (x_(1) , …, x_(j-1)`)} over {MSE(x_(1) , …, x_(j-1) , x_j^* `)}
으로 정의된다. 변수
x_j^*`
의 기여도를 통계적으로 평가하기 위한 부분 F 검정통계량은 설명변수
x_j^*`
의 추가적 설명력이 없다는 귀무가설하에서 자유도
(1, n-j-1)`
의 F 분포를 따른다. 이 부분 F 검정통계량은
x_(1) , …, x_(j-1)`, x_j^*`
를 설명변수로 갖는 다중회귀모형에서
x_j^*`
의 회귀계수가 0이라는 귀무가설을 검정할 때의
t-
통계량의 제곱과 같다.
전진선택법은 최대로
f+(f-1)+…+1=f(f+1)/2
개의 회귀분석을 하면 되므로, 모든 가능한 회귀의
(2^f -1)`
개에 비교하면 작은 숫자이다. 이 방법은 직관적으로는 타당한 듯 보이는 이점이 있으나, 각 단계마다 바로 한 치 앞에서의 '좋은' 변수를 선택한하는 방법으로 한 번 들어온 변수는 절대로 나가지 않는 단점이 있다. 또한 회귀모형에 특정 세 변수
(x_(h) , x_(i) , x_(j) )
가 순서대로 선택되었다고 하더라도 임의의 세 변수를 선택하는 모든
`_f `C_3
개의 회귀모형을 검토하여 보면
(x_(h) , x_(i) , x_(j) )
를 사용한 경우보다 결정계수
R^2`
값을 더 크게 해주는 회귀모형이 있을 수 있다. 반면, 전진선택법은
f`
아주 큰 경우, 특히 완전모형에서의 회귀계수의 수
(f+1)
가 관측치의 개수
(n)`
보다 클 때에도 사용될 수 있다는 장점을 갖는다.
후진소거법 (Backward Elimination )
이 방법은 불필요한 변수를 제거시켜 나가는 방법으로 후진소거법의 초기 모형은 완전모형(Full Model)이다. 즉, 첫 단계에는 모든 후보변수를 포함하는 회구모형을 jwr합한 뒤 기여도가 가장 작은(부분 F 통계량의 값이 가장 작은) 벼수 하나를 찾는다. 그 변수를
x_(f)
라고 하자. 만약
x_(f)
에 대한 부분
F-`
검정이 유의수준
alpha`
(보통 0.1)에서 유의하면 완전모형으로 귀착되고 그렇지 않으면
x_(f)
를 제거하고 다음 단계로 넘어간다.
j`
번째
(`j``=``2,``3``,``…``)
단계에서는 이미
(j-1)
개의 변수
x_{(f`) } , …, x_(f-j+2)
가 제거되어 회귀모형에는
(f-j+1)
개의 변수만 남아 있다. 남아 있는 변수들 중에서 부분 F의 값이 가장 작은 변수 하나를 찾는다. 그 변수를
x_(f-j+1)
이라고 하자. 만약
x_(f-j+1)
에 대한 부분
F-
검정이 유의수준
alpha
에서 유의하면 변수
x_{(f`) } , …, x_(f-j+2)
가 제거된 축소모형으로 귀착되고, 그렇지 않으면 변수
x_(f-j+1)
를 추가로 제거하고 다음 단계로 넘어간다.
후진소거법은 중요한 변수를 모형에서 제외할 가능성이 적으므로 비교적 안전한 방법이라고 할 수 있다. 여기서 찾아진 모형이 모든 가능한 회귀를 통해서 찾아지는 모형들보다 못할 수 있다. 후진소거법은 완전모형에서의 회귀계수의 수
(f+1)
가 관측치의 개수
(n)`
보다 클 때에는 사용될 수 없다. 따라서
f`
가
n`
에 비해 작은 경우에 적절한 방법이라고 하겠다.
단계적 방법 (Stepwise Method )
전진선택법에 후진소거법을 결합한 것으로서, 매 단계마다 선택과 제거를 반복하면서 중요한 변수를 찾아내는 방법이다. 이 방법은 중요한 변수를 하나씩 추가로 선택하면서 이미 선택된 변수들이 제거될 수 있는 지를 매 단계마다 검토하는 방법이다. 그러나 이 방법에 의해서 찾아진 모형도 모든 가능한 회귀를 통해서 얻어진 모형들보다 못할 수 있다.
모든 가능한 회귀 (All Possible Regression)
가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법이다. 이 방법은 가장 안전한 방법이라고 할 수 있지만, 입력변수가 많은 경우에는 탐색시간이 매우 많이 걸리며 현실적으로 사용하기 어려운 경우가 종종 있다.
rm C_p`
, 아카이케 (Akaike)의 정보기준(Information Criteria, AIC) 등이 있다. 모형선택기준은 변수선택의 절대적인 판단기준이라기 보다는 하나의 참고정보라고 할 수 있다. 연구자는 이들 기준들에 따라 적절한 것으로 판단되는 몇 개의 모형을 선발한 다음, 잔차 (Residual ) 및 영향력 분석, 다중공선성, 자료해석 상의 실제적인 의미 등을 종합적으로 고려하여 최종적인 모형을 선택하는 것이 바람직하다.
변수선택의 방법
전진선택법 (Forward Selection )
전지선택법의 초기 모형은 절편만을 포함한다. 그 상태에서
f`
개의 후보 변수들 중
F`
통계량의 값을 가장 크게 하는 변수 하나르 찾는다. 그 변수를
x_(1)`
이라고 하자. 변수
x_(1)`
의 기여도에 대한
F`
검정결과가 유의수준
alpha`
(보통 0.5)에서 유의하면 다으 단계로 넘어가고, 그렇지 않으면 상수항만의 휘귀모형으로 귀착된다.
j`
번째
(j=2,3,…)
단계에서는 이미
(j-1)`
개의 변수가 선택되어 회귀모형에 포함되어 있다. 그 변수들을
x_(1) , …, x_(j-1)`
이라고 하자. 아직 선택되지 않은 변수들 중에서 부분
F`
통계량의 값을 가장 크게 하는 변수 하나를 찾는다. 이를
x_{(j`)}`
라고 할 때,
x_{(j`)}`
에 대한 부분
F-`
검정(Partial F test)결과가 유의수준
alpha`
에서 유의하면 또 변수를 추가선택하기 위하여 다음 단계로 넘어가고 그렇지 않으면
x_{(j`)}`
를 버린 채
x_(1) , …, x_(j-1)`
를 설명변수로 하는 축소모형으로 귀착된다. 위에서 나온 부분
F-
검정에 대해 설명하면 다음과 같다. 설명변수
x_j^*`
에 대한 부분 F 검정통계량은
Partial
F ~=~ {SSR (x_(1) , …, x_(j-1)` , x_j^* ) - SSR (x_(1) , …, x_(j-1)`)} over {MSE(x_(1) , …, x_(j-1) , x_j^* `)}
으로 정의된다. 변수
x_j^*`
의 기여도를 통계적으로 평가하기 위한 부분 F 검정통계량은 설명변수
x_j^*`
의 추가적 설명력이 없다는 귀무가설하에서 자유도
(1, n-j-1)`
의 F 분포를 따른다. 이 부분 F 검정통계량은
x_(1) , …, x_(j-1)`, x_j^*`
를 설명변수로 갖는 다중회귀모형에서
x_j^*`
의 회귀계수가 0이라는 귀무가설을 검정할 때의
t-
통계량의 제곱과 같다.
전진선택법은 최대로
f+(f-1)+…+1=f(f+1)/2
개의 회귀분석을 하면 되므로, 모든 가능한 회귀의
(2^f -1)`
개에 비교하면 작은 숫자이다. 이 방법은 직관적으로는 타당한 듯 보이는 이점이 있으나, 각 단계마다 바로 한 치 앞에서의 '좋은' 변수를 선택한하는 방법으로 한 번 들어온 변수는 절대로 나가지 않는 단점이 있다. 또한 회귀모형에 특정 세 변수
(x_(h) , x_(i) , x_(j) )
가 순서대로 선택되었다고 하더라도 임의의 세 변수를 선택하는 모든
`_f `C_3
개의 회귀모형을 검토하여 보면
(x_(h) , x_(i) , x_(j) )
를 사용한 경우보다 결정계수
R^2`
값을 더 크게 해주는 회귀모형이 있을 수 있다. 반면, 전진선택법은
f`
아주 큰 경우, 특히 완전모형에서의 회귀계수의 수
(f+1)
가 관측치의 개수
(n)`
보다 클 때에도 사용될 수 있다는 장점을 갖는다.
후진소거법 (Backward Elimination )
이 방법은 불필요한 변수를 제거시켜 나가는 방법으로 후진소거법의 초기 모형은 완전모형(Full Model)이다. 즉, 첫 단계에는 모든 후보변수를 포함하는 회구모형을 jwr합한 뒤 기여도가 가장 작은(부분 F 통계량의 값이 가장 작은) 벼수 하나를 찾는다. 그 변수를
x_(f)
라고 하자. 만약
x_(f)
에 대한 부분
F-`
검정이 유의수준
alpha`
(보통 0.1)에서 유의하면 완전모형으로 귀착되고 그렇지 않으면
x_(f)
를 제거하고 다음 단계로 넘어간다.
j`
번째
(`j``=``2,``3``,``…``)
단계에서는 이미
(j-1)
개의 변수
x_{(f`) } , …, x_(f-j+2)
가 제거되어 회귀모형에는
(f-j+1)
개의 변수만 남아 있다. 남아 있는 변수들 중에서 부분 F의 값이 가장 작은 변수 하나를 찾는다. 그 변수를
x_(f-j+1)
이라고 하자. 만약
x_(f-j+1)
에 대한 부분
F-
검정이 유의수준
alpha
에서 유의하면 변수
x_{(f`) } , …, x_(f-j+2)
가 제거된 축소모형으로 귀착되고, 그렇지 않으면 변수
x_(f-j+1)
를 추가로 제거하고 다음 단계로 넘어간다.
후진소거법은 중요한 변수를 모형에서 제외할 가능성이 적으므로 비교적 안전한 방법이라고 할 수 있다. 여기서 찾아진 모형이 모든 가능한 회귀를 통해서 찾아지는 모형들보다 못할 수 있다. 후진소거법은 완전모형에서의 회귀계수의 수
(f+1)
가 관측치의 개수
(n)`
보다 클 때에는 사용될 수 없다. 따라서
f`
가
n`
에 비해 작은 경우에 적절한 방법이라고 하겠다.
단계적 방법 (Stepwise Method )
전진선택법에 후진소거법을 결합한 것으로서, 매 단계마다 선택과 제거를 반복하면서 중요한 변수를 찾아내는 방법이다. 이 방법은 중요한 변수를 하나씩 추가로 선택하면서 이미 선택된 변수들이 제거될 수 있는 지를 매 단계마다 검토하는 방법이다. 그러나 이 방법에 의해서 찾아진 모형도 모든 가능한 회귀를 통해서 얻어진 모형들보다 못할 수 있다.
모든 가능한 회귀 (All Possible Regression)
가능한 모든 축소모형을 고려하여 가장 좋은 모형을 찾아내는 방법이다. 이 방법은 가장 안전한 방법이라고 할 수 있지만, 입력변수가 많은 경우에는 탐색시간이 매우 많이 걸리며 현실적으로 사용하기 어려운 경우가 종종 있다.
추천자료
국내 애니메이션 시장에서의 일본 애니메이션 영향력 분석 평가
서태지의 대중음악내 영향력 분석(A+레포트)
[교육훈련 및 인적자원관리]기업의 교육훈련 및 인적자원관리가 기업의 경쟁력에 미치는 영향...
(니체) 니체의 생애와 주요 사상 분석 및 현대사적 의의 및 영향력 분석
버즈 마케팅(구전연구)의 영향력과 분석 및 버즈마케팅 전략 방안
[외환론]엔케리 트레이드 동향 및 영향력 분석
[정신건강][성][운동][체육활동][볼링]정신건강의 개념, 정신건강의 분류, 정신건강에서 성의...
살아오는 동안 삶의 경험 중에 가장 의미 있거나 영향력을 준 사건을 자세하게 기술하고, 심...
한류의 정의와 영향력 조사 및 소녀시대를 통한 한류문화 발전과 문제점 해결방안 조사분석
삶에 영향력 있는 경험을  심리학적 개념을 활용한 분석
[장관][장관 영향력][장관 역할][장관 정책결정][장관 인력자원개발회의][장관 지역주의적 임...
컬러의 시대 - 컬러소비와 컬러마케팅 (연구동기, 컬러소비의 등장배경과 특징, 영향력과 사...
탐색적자료분석(판) - 자료 나이의 줄기-잎-그림 작성 & 수강 상태 따른 사용기간의 상자...
자신이 관심있는 국내외 항공 산업과 관련된 기업의 산업구조분석을 실시하고, 이 산업의 경...