지도학습모형를 이용한 데이터마이닝

본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

지도학습모형를 이용한 데이터마이닝에 대한 보고서 자료입니다.

Ⅰ.데이터 마이닝의 절차
1) 자료의 수집
2) 데이터의 준비
3) 데이터마이닝의 수행
4) 데이터 시각화
5) 마이닝 결과의 활용

Ⅱ.분석방법과 대상:각 분석법의 소개와 데이타에 대한 설명
1) 지도학습 모형의 세가지 분석법의 소개
① 로지스틱
② 신경망
③ 나무형 분류
2) 자료소개

Ⅲ.분석과정과 결과
1) 분석과정
① Variable File 노드
② Type 노드
③ Distribution 노드
④ Sample 노드
⑤ Distribution 노드
⑥ Balancing 노드
2) 결과
① 로지스틱 회귀
② 신경망
③ 나무형 분류
④ 분석법의 비교
ⓐ 오분류율의 비교
ⓑ 평가도표의 비교
3) 최적의 모형 선택과 그 이유
4) 최적의 선택된 로지스틱 모형의 손익 계산

Ⅳ.결론 및 고찰

본문내용

.
ⓐ 오분류율의 비교
matrix 노드를 통해 얻은 예측범주와 실제범주의 교차표를 가지고 세 모형의 예측 오분류율을 비교하여 보았다.
<로지스틱 모형>
로지스틱 모형에서는 예측 오분류율이 class 좋은신용으로 예측한 사례 220개 중 실제 좋은신용인 사례가 171개(77.727%)이고 실제 나쁜신용인 사례가 49개(16.333%)이다. 나쁜신용으로 예측한 사례 80개 중에 실제로 나쁜신용인 사례가 60개(75.000%)이고 실제 좋은신용인 사례가 20개(25.000%)이다.
<신경망 모형>
신경망 모형에서는 예측 오분류율이 class 좋은신용으로 예측한 사례 192개 중 실제 좋은신용인 사례가 162개(84.375%)이고 실제 나쁜신용인 사례가 30개(15.625%)이다. 나쁜신용으로 예측한 사례 108개 중에 실제로 나쁜신용인 사례가 50개(46.296%)이고 실제 좋은신용인 사례가 58개(53.704%)이다.
<나무형 분류 모형>
나무형 분류 모형에서는 예측 오분류율이 class 좋은신용으로 예측한 사례 220개 중 실제 좋은신용인 사례가 191개(86.818%)이고 실제 나쁜신용인 사례가 29개(13.182%)이다. 나쁜신용으로 예측한 사례 80개 중에 실제 나쁜신용인 사례가 32개(40.000%)이고 실제 좋은신용인 사례가 48개(60.000%)이다.
※오분류율의 통합비교
세 모형의 오분류율을 통합하여 비교해 보았다. 로지스틱 모형은 잘못 분류된 비율이 23.0%, 신경망의 경우 29.3%, 나무형 분류 모형의 경우 25.6% 였다. 이로 보았을 때 오분류율이 상대적으로 적은 로지스틱 모형이 낫다고 판단할 수 있다.
ⓑ 평가도표의 비교
세 가지 추정모형의 유효성을 보기 위하여 평가 도표를 그려 보았다. 곡선이 50% 넘어서 까지 증가하다가 점차 완만해지고 있음을 알 수 있다. 신경망 모형과 나무형 분류 모형은 거의 같은 곡선을 그리고 있으며 로지스틱 모형이 5%~75%에서 다른 모형보다 이득 퍼센트가 조금 높게 나타난다.
3) 최적의 모형 선택과 그 이유
위에서 로지스틱 모형, 신경망 모형, 의사결정나무 모형에 대한 결과를 오분류율과 평가도표를 보고 비교해 보았다. 오분류율의 기준으로는 로지스틱 모형이 상대적으로 좋았으며 평가도표를 보고 판단했을 때도 신경망 모형과 나무형 분류 모형이 거의 비슷하게 보이고 로지스틱 모형만 상대적으로 조금 좋다고 판단할 수 있었다. 이를 종합한 결과 로지스틱 모형이 신용평가 예측에 대한 최적 모형으로 적합한 것이라 생각된다.
4) 최적의 선택된 로지스틱 모형의 손익 계산
로지스틱 모형을 적용하여 손익 산출을 해 보았다.
파생 노드를 사용하여 신용 점수(Score2) 를 다음과 같이 산출하였다.
if '$L-ACQUIRE'=1 Score2= $LP-ACQUIRE'
if '$L-ACQUIRE'=0 Score2= 1 - $LP-ACQUIRE'
< 로지스틱 모형에 적용한 경우 >
신용대출 업체는 좋은 신용자로부터는 1명 당 100만원의 수익을 올리 수 있고 나쁜 신용자로부터는 1명당 100만원의 손실을 본다고 하자. 그러면 300명 신용대출 신청자로부터 이 업체가 기대할 수 있는 순수익은 다음과 같을 것이다.
좋은신용
나쁜신용
합계
수익-손실
순이익(백만원)
전체잔류 자료
220
(73.33%)
80
(26.67%)
300
140
140
90%잔류 자료
212
(78.52%)
58
(21.48%)
270
154
154
80%잔류 자료
200
(83.33%)
40
(16.67%)
240
160
160
70%잔류 자료
183
(87.14%)
27
(12.86%)
210
156
156
60%잔류 자료
163
(90.56%)
17
(9.44%)
180
146
146
50%잔류 자료
138
(92.00%)
12
(8.00%)
150
126
126
- 경우 1. 대상자 전체를 기가하지 않는 경우
수익 : 100만원/명 × 220명 = 220,000,000원
손실 : 100만원/명 × 80명 = 80,000,000원
순수익 : 140,000,000원
- 경우 1. 대상자 10%를 로지스틱 점수에 따라 기각하는 경우
수익 : 100만원/명 × 212명 = 212,000,000원
손실 : 100만원/명 × 58명 = 58,000,000원
순수익 : 154,000,000원
- 경우 2. 대상자 20%를 로지스틱 점수에 따라 기각하는 경우
수익 : 100만원/명 × 200명 = 200,000,000원
손실 : 100만원/명 × 40명 = 40,000,000원
순수익 : 160,000,000원
- 경우 3. 대상자 30%를 로지스틱 점수에 따라 기각하는 경우
수익 : 100만원/명 × 183명 = 183,000,000원
손실 : 100만원/명 × 27명 = 27,000,000원
순수익 : 156,000,000원
- 경우 4. 대상자 40%를 로지스틱 점수에 따라 기각하는 경우
수익 : 100만원/명 × 163명 = 163,000,000원
손실 : 100만원/명 × 17명 = 17,000,000원
순수익 : 146,000,000원
- 경우 5. 대상자 50%를 로지스틱 점수에 따라 기각하는 경우
수익 : 100만원/명 × 138명 = 138,000,000원
손실 : 100만원/명 × 12명 = 12,000,000원
순수익 : 126,000,000원
- 신용대출 신청자의 20%를 로지스틱 점수에 따라 기각하는 것이 최고의 순이익인 1,600만원(300명당)을 기대할 수 있다는 것을 알 수 있다.
Ⅳ.결론 및 고찰
위의 결과를 종합해보면 이 자료에서는 로지스틱 모형이 젤 적합한 모형의 모습으로 나타난다. 40%까지 계속해서 급속도로 이익이 상승하다가 그 이후로는 완만하게 상승하는 것으로 나타난다. 하지만 각각의 분석 모형의 장단점을 생각해보면 미래 예측을 사용하여서는 안 된다. 예를 들어 로지스틱 모형이 가장 적절하다는 이유로 로지스틱 모형만을 근거로 고객 분류를 한다면 신경망이나 나무 분류형의 정상적인 분류를 볼 수 없을 것이다. 그리고 평가I도표에서 각 분위수를 비교하여 어디서 최대의 이득을 가져다 줄 수 있는지 합리적인 의사결정을 해야 할 것이다.

키워드

데이터 마이닝의 절차, 로지스틱, 신경망, 나무형 분류

소개글

목차

본문내용

키워드

추천자료