의사결정나무분석 - 조사/분석/통계 레포트

본 자료는 5페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 5페이지 까지만 미리보기를 제공합니다.
5페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

의사결정나무분석에 대한 보고서 자료입니다.

1. 의사결정나무 모형 소개

2. 의사결정나무 모형의 구조

3. 의사결정나무 모형의 사용분야

4. 의사결정나무 모형의 구축 과정

5. 분할 기준

6. 분할 방법(Split) : CHAID, CART, C5.0, QUEST

7. 가지치기 방법(Prune)

8. 의사결정나무모형의 단점

9. 의사결정나무 모형의 장점

10. 참고문헌

본문내용

1) 개요
CRM을 포함한 데이터 마이닝 프로젝트에서 빠지지 않고 구축되는 모형으로서 고객에 대한 점수화(scoring)와 세분화(segmentation)가 있다. 고객 점수화는 주로 로지스틱 회귀모형이 가장 널리 사용되고 있으며, 고객 세분화를 위한 방법으로 의사결정나무(decision tree) 모형이 많이 사용된다.
의사결정나무 모형은 Breiman 등에 의해서 소개되었고[Breiman, 1984], Loh 등에 의해 많은 발전이 이루어졌다[Loh, 1997]. 의사결정나무는 모형의 구축과정을 나무형태로 표현하여 대상이 되는 집단을 몇 개의 소집단으로 구분하는 분류 및 예측 기법이다. 즉, 의사결정 규칙을 도표화하여 관심의 대상이 되는 집단을 몇 개의 소집단으로 분류 및 예측을 수행하는 분석 방법이다.
의사결정나무 모형은 결과에 대한 성능이 우수할 뿐만 아니라, 실무자가 구축모형에 대하여 쉽게 이해할 수 있기 때문에 실무에서 많이 사용되고 있다. 왜냐하면 힘들게 구축된 데이터 마이닝 모형을 현업의 실무자가 제대로 이해하지 못하게 된다면 효과적인 전략(마케팅, 제조, R&D 분야 등)수립이 이루어질 수 없기 때문이다.
2) 분석모형 구분
다른 마이닝 기법들에 비해 분석과정이 나무구조로 표현되기 때문에 쉽게 이해되고 설명되어질 수 있다. 의사결정나무 모형은 크게 목표변수가 이산형인 분류나무(classification tree) 모형과 목표변수가 연속형인 회귀나무(regression tree) 모형으로 나눌 수 있다.
3) 알고리즘
분류나무 모형은 목표변수의 각 레이블에 속하는 빈도에 기초하여 분리되며 이산형 목표변수가 잘 구별되는 정도는 카이제곱 검정통계량, 지니 계수, 엔트로피 등의 불순도 측도(impurity measure)에 의해 측정된다. 반면에 회귀나무 모형은 목표변수의 평균에 기초하여 분리되는데 연속형 목표변수가 잘 구별되는 정도는 F-test 값 또는 분산의 감소량 등에 의해 측정된다.
위의 그림에서 원으로 표시된 노드는 계속적으로 세분화가 이루어질 수 있는 데이터 노드(node)를 나타내고 있으며, 사각형은 더 이상 세분화가 되지 않는 마지막 데이터 노드(terminal node)를 나타낸다. 가장 위에 있는 노드 X는 학습 데이터 전체를 나타내는 뿌리(root)노드이다. 뿌리노드로부터 분할(split)되어 서로 유사한 개체들끼리 세분화 되어 간다. 만약 무작정 분할만 하게 되면 최종적으로는 개개의 개체들이 모두 한 개의 노드를 형성하게 되며, 이때에는 세분화 모형의 의미가 없어지기 때문에 적당한 시점에서 가지치기(pruning)를 해야 한다. 그래서 적당한 크기의 최종 의사결정나무 모형을 형성할 수 있게 된다. 의사결정나무의 분할과 가지치기는 다음 절에서 설명하는 동질성(homogeneity) 측도에 의한 불순도를 이용한다.

키워드

데이터마이닝, 의사결정나무, CART, C5.0, CHAID, Decision Tree, 통계분석, 다변량분석

소개글

목차

본문내용

키워드

추천자료