다중회귀분석 분석 및 사례
본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

목차

1. 다중회귀분석의 개념

2. 다중회귀분석의 효용과 사용례

3. 다중회귀분석의 전제조건

4. S P S S를 중심으로 한 다중회귀분석의 과정
1) Data 의 특성 파악
2) 그래프( 산점도 )를 통한 선형성 확인
3) 다중 공선성( Multiple Collinearity ) 확인
4) 최적 변수(인자)의 선택
5) 잔차 분석
6) 분석 및 결과 해석

5. 사례분석

본문내용

인자)의 선택
- 선택 목적
(1) 종속변수에 대하여 영향력이 큰 독립변수를 찾는다.
(2) 가능한 한 최소의 변수로 최대의 효과를 본다.
- 단계별 회귀 (Stepwise Regression)
(1) 종속변수에 기여도가 가장 높은 변수(X1)를 선택하다.
(2) 나머지 변수 중에서 새로이 회귀모형에 추가될 때 기여도가 가장 높은 변수(X2)를 선 택한다.
(3) X2의 P값이 기준 값보다 작으면 모형에 추가한다.
(4) 새롭게 추가 또는 삭제되는 변수가 없을 때까지 2~3을 반복한다.
5) 잔차 분석
- 잔차가 오차항의 특성을 갖는다고 가정하고 잔차가 등분산성, 정규성을 따르는지 조사하여야 한다. 그리고, 잔차의 산포형태를 통해서 회귀직선을 적합시킨 것이 타당한지 살펴보아야 한다. (잔차를 분석함으로서 모형의 적합성을 판별할 수 있다.)
- 잔차의 등분산 만족 여부 : 그래프의 모양이 어떠한 규친이나 추세, 경향, 주기 없이 고르게 분포하는지에 대한 여부로 결정한다.
- 잔차의 정규성 만족 여부 : 정규성검정은 분산분석을 통한 유의확률이 0.05를 넘으면 만족하고 넘지 못하면 만족하지 않는다.
- 잔차의 성질
(1) 잔차들의 합은 0이다.
(2) 잔차들의 xij에 의한 가중합(weighted sum)은 0이다.
(3) 잔차들의 ^yj에 의한 가중합도 0이 된다.
(4) y=Xβ+ε에서 오차항ε은 N(0,Iσ2)의 분포를 하며 εj 들간의 상관관계가 없이 서로 독 립적이지만 잔차 ej간에는 상관관계가 일반적으로 존재한다.
- 잔차의 산점도는 잔차를 종축으로 놓고 횡축으로는 다음과 같은 것들을 잡을 수 있다.
(1) ^yj 에 대하여
(2) xij, I=1,2,...,k, 에 대하여
(3) yj 가 시계열(time-series)데이터인 경우 시간에 대하여.
- 잔차의 산점도의 형태의 의미
(a) (b) (c) (d)
(a) 가정에 아무런 모순이 없는 것으로 판정된다.
(b) 분산이 일정하지 않으며, 가중회귀(weighted regression)를 쓰거나 또는 yj 를 변환시 켜 회귀분석함이 바람직하다.
(c) 절편이 필요한 모형인데 절편을 사용하지 않았을 경우에 생길 수 있는 형태이다.
(d) 모형이 타당하지 않다. 추가적으로 독립변수의 제곱항 등이 필요하다. 또는 yj 의 적절 한 변환이 필요하다.
6) 분석 및 결과 해석
- P값이 0.05를 넘지 않을 경우 대립가설 채택 -> 선형회귀모형이 존재한다.
- 선형회귀모형이 존재한다면..
분석결과로부터 선형회귀식을 도출한다.
- 분석결과로부터 결정계수(설명력)을 도출한다.
5. 사례분석
국내 야구 투수부분에서 승수에 영향을 미치는 요인에 대해 조사해 보았다.
승수
경기

이닝
피안타
볼넷
삼진
실점
자책
방어율
6
7
0
45
40
19
23
15
146
2.2
5
6
0
41.33
26
9
37
7
126
1.09
4
6
1
44.33
34
13
41
15
146
3.05
4
6
0
35.67
28
15
30
9
129
2.27
4
12
0
21.33
11
7
16
1
110
0.42
3
6
1
36.67
37
19
16
18
105
2.7
3
6
1
34.33
34
14
24
19
123
3.41
3
6
1
43.67
39
13
26
16
129
3.09
3
5
1
33
28
8
19
9
129
1.64
3
7
3
48
41
12
25
20
123
2.44
3
14
0
14.67
10
8
13
5
123
3.07
3
6
2
42.33
41
6
19
12
126
2.55
3
14
0
21.33
8
16
35
7
125
2.95
2
5
1
23
24
12
16
18
98
6.26
2
18
0
22
11
4
15
4
123
1.64
2
6
3
28.33
36
12
11
22
123
4.76
2
5
1
32.67
31
7
15
10
126
2.2
2
5
2
30.67
28
20
20
16
125
4.11
2
6
2
33.33
33
11
19
14
98
3.24
2
6
1
17.33
13
8
11
4
123
2.08
2
6
4
30.33
46
12
11
29
123
7.12
2
11
1
13
8
4
9
4
129
2.77
2
15
3
19.67
20
6
13
11
125
5.03
2
6
2
27.33
26
17
14
18
125
5.27
2
5
1
29.33
25
10
11
10
125
2.76
2
12
1
13.33
9
1
16
2
125
1.35
2
6
3
33
29
15
20
16
98
4.09
2
5
1
28.67
22
10
22
10
98
2.83
1
4
1
16.33
19
7
8
8
105
4.41
1
16
0
23.33
14
12
19
4
98
1.54
우선 최근 야구 투수부분 자료를 조사해 본 결과
- Matrix Plot을 통하여 변수들간의 대략적인 관계를 확인했다.
그결과
피안타와 이닝, 피안타와 실점 등에서 다중공선성이 의심되었다.
이 변수들과의 상관관계를 알아보았다.
위의 상관관계에서 상당히 상관성이 있는(상관성이 0.8 이상인) 항목중 하나를 제거(피안타) 하였다.
그 후에 추후로 공선성을 VIF를 통해 확인해 보았다.
여기서 VIF가 10 이상인 실점을 제외하였다.
그 후 최적변수선택을 위해 Stepwise모형을 사용한 결과
삼진과 팀타점 많이 선택되었다.
이들의 결정력은 아래에 나와있는 49.4%를 보여주고 있다.
즉 이 두변수가 승리에 약49.4% 영향이 있다는 의미이다.
다음으로 잔차의 등분산가 정규성 검정을 하였다
그래프에서 어떤 특정한 규칙이나 추세, 경향, 주기가 없이 고른 분포를 보여주므로 잔차의 등분산이 만족함을 알 수 있다.
또한 Dtandard Residual 역시 평균이 0이고 표준편차가 1의 값에 가까운 값을 보임으로 정규성을 만족함을 알 수있다.
이제 이런 자료의 결과를 통해 해석을 하게되면
우선 분산분석을 통해 이 값이 유의한 값임을 알 수 있다.
위의 두 결과로부터 나올 수 있는 결론은
최적 변수로 선택된 변수는 , 삼진과 팀타점이며 Y=-2.609+0.67(삼진)+0.33(팀타점)
의 회귀식이 존재하며 삼진과 팀타점이 설명할 수 있는 비율은 49.4% 이다.

키워드

회귀분석,   판별,   분석,   다중상관분석,   SPSS,   SAS,   통계학,   다중
  • 가격1,500
  • 페이지수10페이지
  • 등록일2008.04.17
  • 저작시기2008.4
  • 파일형식한글(hwp)
  • 자료번호#461659
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니