목차
<이론문제>
<실습문제>
<실습문제>
본문내용
민감도는 약 0.567임을 알 수 있다.
위의 ROC 곡선이 직선 형태에 가깝기 때문에 모형 구축의 효과가 적다고 볼 수 있다.
(by 오분류표)
민감도 = (실제1, 예측1)인 관측치의 빈도 / 실제1인 관측치의 빈도
특이도 = (실제0, 예측0)인 관측치의 빈도 / 실제0인 관측치의 빈도
- Q8 : 위의 모형에 대한 Lift chart(누적)를 작성하고 Baseline 모형과 Exact 모형의
경우와 비교하시오.
Exact Model : 주어진 자료로 만들 수 있는 가장 좋은 모형. 예측했을 경우 100% 전부 맞는 경우의 모형이다.
Baseline : 모형을 전혀 사용하지 않았을 때.
즉, Lift Chart의 결과를 보면 모형을 사용하지 않은 Baseline보다는 회귀모형이 좋지만 Exact Model에 비해서는 좋지 않음을 알 수 있다.
(9) Variable Selection 노드(프린트 29)
- Q9 : 위의 자료에 별도로(곁가지로) 'Variable Selection' node를 연결시킨 다음,
R-square 통계량을 이용한 변수선택을 실시하여 Q6의 결과와 비교하시오.
Q6의 결과에서는 INCOME, CARDGIFT, AVGGIFT, LASTT, TIMELAG 변수가 유의하다고 나왔으나 Q9의 결과에서는 LASTT, CARDGIFT, NUMPROM 세 변수만이 유의하다.
- Q10 : 위에서 선택된 변수들의 비선형성에 대하여 설명하시오.
같은 변수에 대해서 AOV16와 Var의 값의 차이가 크면 변수의 비선형 관계를 생각해볼 수 있다.
Effect
df
R-square
AOV16: LASTT
Var: LASTT
15
1
0.018308
0.016071
AOV16: CARDGIFT
Var: CARDGIFT
11
1
0.016313
0.014855
AOV16: NUMPROM
Var: NUMPROM
14
1
0.007728
0.005624
세 변수의 R-square 값이 큰 차이가 없다. 따라서 선택된 변수들은 TARGET_B와 선형 관계를 가진다고 생각할 수 있다.
(10) Transform Variable 노드
- (9)의 'Variable Selection' node 앞에 'Transform Variable' node를 추가하시오. 즉,
'Input Data Source''Transform Variable' 'Variable Selection'
- 'Transform Variable' node를 open하여 변수 AVGGIFT를 log 변환하시오.
- Q11 : 'Variable Selection' node를 다시 실행하여 Q9의 결과와 비교하시오.
AVGGIFT 변수를 로그 변환한 결과에서는 log(AVGGIFT)이 추가되었다. R-square 값이 0.02에서 0.03으로 증가했음을 볼 수 있다. 따라서 log변환된 변수를 추가함으로써 Q9의 결과보다 Q11의 모형이 좀 더 정확하다.
The DMINE Procedure
Effects Chosen for Target: TARGET_B
Sum of Error Mean
Effect DF R-Square F Value p-Value Squares Square
Var: LASTT 1 0.016071 113.880155 <.0001 27.972735 0.245633
Var: AVGG_E9H 1 0.011977 85.900272 <.0001 20.846100 0.242678
Var: CARDGIFT 1 0.003991 28.740799 <.0001 6.947112 0.241716
Var: NUMPROM 1 0.000671 4.837938 0.0279 1.168764 0.241583
SAS 시스템 105
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
The Final ANOVA Table for Target: TARGET_B
Sum of
Effect DF R-Square Squares
Model 4 0.032711 56.934710
Error 6969 . 1683.591960
Total 6973 . 1740.526670
SAS 시스템 106
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
Estimating logistic
Iter Alpha Beta
0 -1.998392 3.996890
1 -2.076595 4.149042
2 -2.076890 4.149609
2 -2.076890 4.149609
SAS 시스템 107
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
Classification Table for CUTOFF = 0.5000
Accuracy = 58.63
Predicted
Observed 0 1
0 1564 1779
1 1106 2525
Missing 0 0
(11) 기대이익의 계산
- Q12 : 위의 모형에 대한 Lift Chart에서 아래와 같은 3가지 decision에 대한 cost와
이익행렬을 작성하고, 50% 그룹에 해당하는 평균 기대이익(profit)을 구하시오.
DecisionCost Variable COST
A constant cost 5000
B constant cost 1000
C constant cost 0
이익행렬:
Level A B C
1 2000010000 0
0 0 0 0
Lift Chart는 Assessment 노드에서 그린다!
위의 차트에서 보면 50%에 해당하는 사람의 평균 기대이익은 5984이다.
(12) Tree 노드
- Q13 : 위의 분석흐름도(PFD)에 Tree 노드를 추가한 후, default 상태로 Assessment
노드를 수행하여 위의 두 모형을 비교하시오.
(13) Score 노드
- Q14 : 같이 제공되는 myscore.sd2는 score계산을 위한 dataset이다. 수업에서 사용한
handout 8쪽의 내용을 참조하여 Score node를 수행한 후 첫 번째 개체가 기부할
예측확률을 구하시오.
(주의: (4)에서 지정한 변수 PCOWNERS, PETS에 대한 수정을 해 줄 것.)
위의 ROC 곡선이 직선 형태에 가깝기 때문에 모형 구축의 효과가 적다고 볼 수 있다.
(by 오분류표)
민감도 = (실제1, 예측1)인 관측치의 빈도 / 실제1인 관측치의 빈도
특이도 = (실제0, 예측0)인 관측치의 빈도 / 실제0인 관측치의 빈도
- Q8 : 위의 모형에 대한 Lift chart(누적)를 작성하고 Baseline 모형과 Exact 모형의
경우와 비교하시오.
Exact Model : 주어진 자료로 만들 수 있는 가장 좋은 모형. 예측했을 경우 100% 전부 맞는 경우의 모형이다.
Baseline : 모형을 전혀 사용하지 않았을 때.
즉, Lift Chart의 결과를 보면 모형을 사용하지 않은 Baseline보다는 회귀모형이 좋지만 Exact Model에 비해서는 좋지 않음을 알 수 있다.
(9) Variable Selection 노드(프린트 29)
- Q9 : 위의 자료에 별도로(곁가지로) 'Variable Selection' node를 연결시킨 다음,
R-square 통계량을 이용한 변수선택을 실시하여 Q6의 결과와 비교하시오.
Q6의 결과에서는 INCOME, CARDGIFT, AVGGIFT, LASTT, TIMELAG 변수가 유의하다고 나왔으나 Q9의 결과에서는 LASTT, CARDGIFT, NUMPROM 세 변수만이 유의하다.
- Q10 : 위에서 선택된 변수들의 비선형성에 대하여 설명하시오.
같은 변수에 대해서 AOV16와 Var의 값의 차이가 크면 변수의 비선형 관계를 생각해볼 수 있다.
Effect
df
R-square
AOV16: LASTT
Var: LASTT
15
1
0.018308
0.016071
AOV16: CARDGIFT
Var: CARDGIFT
11
1
0.016313
0.014855
AOV16: NUMPROM
Var: NUMPROM
14
1
0.007728
0.005624
세 변수의 R-square 값이 큰 차이가 없다. 따라서 선택된 변수들은 TARGET_B와 선형 관계를 가진다고 생각할 수 있다.
(10) Transform Variable 노드
- (9)의 'Variable Selection' node 앞에 'Transform Variable' node를 추가하시오. 즉,
'Input Data Source''Transform Variable' 'Variable Selection'
- 'Transform Variable' node를 open하여 변수 AVGGIFT를 log 변환하시오.
- Q11 : 'Variable Selection' node를 다시 실행하여 Q9의 결과와 비교하시오.
AVGGIFT 변수를 로그 변환한 결과에서는 log(AVGGIFT)이 추가되었다. R-square 값이 0.02에서 0.03으로 증가했음을 볼 수 있다. 따라서 log변환된 변수를 추가함으로써 Q9의 결과보다 Q11의 모형이 좀 더 정확하다.
The DMINE Procedure
Effects Chosen for Target: TARGET_B
Sum of Error Mean
Effect DF R-Square F Value p-Value Squares Square
Var: LASTT 1 0.016071 113.880155 <.0001 27.972735 0.245633
Var: AVGG_E9H 1 0.011977 85.900272 <.0001 20.846100 0.242678
Var: CARDGIFT 1 0.003991 28.740799 <.0001 6.947112 0.241716
Var: NUMPROM 1 0.000671 4.837938 0.0279 1.168764 0.241583
SAS 시스템 105
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
The Final ANOVA Table for Target: TARGET_B
Sum of
Effect DF R-Square Squares
Model 4 0.032711 56.934710
Error 6969 . 1683.591960
Total 6973 . 1740.526670
SAS 시스템 106
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
Estimating logistic
Iter Alpha Beta
0 -1.998392 3.996890
1 -2.076595 4.149042
2 -2.076890 4.149609
2 -2.076890 4.149609
SAS 시스템 107
2008년 10월 28일 화요일 오후 12시50분39초
The DMINE Procedure
Classification Table for CUTOFF = 0.5000
Accuracy = 58.63
Predicted
Observed 0 1
0 1564 1779
1 1106 2525
Missing 0 0
(11) 기대이익의 계산
- Q12 : 위의 모형에 대한 Lift Chart에서 아래와 같은 3가지 decision에 대한 cost와
이익행렬을 작성하고, 50% 그룹에 해당하는 평균 기대이익(profit)을 구하시오.
DecisionCost Variable COST
A constant cost 5000
B constant cost 1000
C constant cost 0
이익행렬:
Level A B C
1 2000010000 0
0 0 0 0
Lift Chart는 Assessment 노드에서 그린다!
위의 차트에서 보면 50%에 해당하는 사람의 평균 기대이익은 5984이다.
(12) Tree 노드
- Q13 : 위의 분석흐름도(PFD)에 Tree 노드를 추가한 후, default 상태로 Assessment
노드를 수행하여 위의 두 모형을 비교하시오.
(13) Score 노드
- Q14 : 같이 제공되는 myscore.sd2는 score계산을 위한 dataset이다. 수업에서 사용한
handout 8쪽의 내용을 참조하여 Score node를 수행한 후 첫 번째 개체가 기부할
예측확률을 구하시오.
(주의: (4)에서 지정한 변수 PCOWNERS, PETS에 대한 수정을 해 줄 것.)
추천자료
컴망 2002년 중간고사 해설
컴퓨터의 이해 중간고사대비 요약
경영정보론 중간고사 요점정리
사회복지실천론 시험요약 중간고사용
한국희곡론 중간고사 요약
(청주대)테마로읽는세계사_중간고사
현대생활과패션 청주대 사이버 중간고사
생활과 안전 중간고사대비 정리
사회복지조사방법론 중간고사 예상문제
노인복지론[중간고사(1~7주차)]
동의과학대학교평생교육원 사회복지실천기술론 중간고사 강의교안
멀티미디어 첫걸음 곽성근 저 중간고사 정리
청주대학교 관광산업의 이해(중간고사) 2014년 최신판(1-7주)
웰니스와 삶의 질 중간고사(1~7강) 총정리 PPT, 대본, 캡쳐 포함