목차
1. 데이터마이닝의 등장배경
2. 데이터마이닝의 발전과정
3. 데이터마이닝의 정의
4. 데이터마이닝의 기능
5. 데이터마이닝의 프로세스
6. 데이터마이닝의 효율적인 적용과정
7. 데이터마이닝의 분류 기법
8. 데이터마이닝의 의료분야 활용
9. 데이터마이닝의 전망
2. 데이터마이닝의 발전과정
3. 데이터마이닝의 정의
4. 데이터마이닝의 기능
5. 데이터마이닝의 프로세스
6. 데이터마이닝의 효율적인 적용과정
7. 데이터마이닝의 분류 기법
8. 데이터마이닝의 의료분야 활용
9. 데이터마이닝의 전망
본문내용
and Regression Trees), C4.5/C5.0, CHAID 등이 있는데, CART에 대하여 주로 설명하고자 한다.
CART는 Breiman 등(1984)에 의하여 개발된 것인데, 각 (독립)변수를 이분화(binary split)하는 과정을 반복하여 트리 형태를 형성함으로써 분류(종속변수가 범주형일 때)와 회귀분석(종속변수가 연속형일 때)을 수행하는 것으로 다음 과정으로 진행된다.
(1) 트리의 형성 (growing the tree) - 학습 표본을 바탕으로 트리를 형성하는 과정으로 변수의 선정, 분리기준(splitting criterion), 정지규칙(stopping rule) 등의 결정 이슈가 있다.
(2) 가지치기 (pruning) - 트리가 너무 복잡하면 분류규칙 또한 복잡하여지는 등의 문제로 일부의 가지를 절단하여 그 가지 이하에서 더 이상 분리하지 않도록 하는 과정이다.
(3) 분류 - 최종적으로 완성된 트리를 바탕으로 분류 규칙을 도출하고, 기존 또는 새로운 데이터에 대하여 분류를 시행하는 과정이다.
트리형성에 있어 연속형 변수에 대하여서는 통상적으로 다음과 같은 질문을 한다. “변수 X가 상수 b 보다 작은가?”
이 질문에 대한 대답이 ‘예’인 경우에는 왼쪽으로, ‘아니오’인 경우에는 오른쪽으로 분지한다. 학습 표본에 대하여서는 각 객체가 해당 분지로 보내지게 된다. 여기서 상수 b를 정하는 방법이 필요한데 이를 분리 기준(splitting criterion)이라 한다. 분리 기준에 대한 기본 철학은 부모노드보다 자식노드의 순도가 더 높게(purer)하는 것이다. 순도 또는 불순도(impurity)의 척도로 CART에서는 주로 Gini 지수를 사용한다.
그리고, CART에서는 최대한으로 키운 트리를 적절하게 가치치기를 함으로써 보다 예측력이 좋은 분류규칙을 도출코자 한다. 가지치기의 결과로 바로 최종 트리를 얻는 것은 아니며, 우선 최종 트리의 후보가 되는 여러 하부 트리를 얻는다. 이후 후보 트리들에 대하여 분류오류율을 분석하여 가장 적합한 최종 트리를 선정하게 된다.
가지치기의 기준은 통상 오분류비용과 트리의 복잡도를 고려하여 산정한다. 최종 트리 또는 임의의 트리의 최종 노드에 대하여 하나의 범주를 배정하는데, 이의 방법은 단순하게 범주별 객체수를 산출한 후 가장 많은 객체를 갖는 범주를 해당 노드에 배정하는 것이다. 최종적으로 선정된 트리에 대하여 분류규칙을 도출하게 되는데, 뿌리 노드에서 분지된 가지를 따라 최종노드에 이르는 조합들이 조건이 되며 최종노드에 배정된 범주가 결과가 된다.
8. 의료분야 활용
■ 환자나 병원 측에서의 보험사기에 대한 검색과 가장 경제적인 의료제공원을 판별해 내는데 쓰이고, 다른 하나는 이 기법으로 각종 암이나 심장마비 등의 병을 자동진단 하는데 있다.
9. 데이터마이닝 전망
■ 데이터 마이닝 기술은 2000년대의 데이터베이스 주요 응용기술로서 각광을 받게 될 것이므로 우리도 이에 준비를 해야 할 것이다.
데이터 마이닝은 대용량 데이터베이스에 존재하는 여러 가지 유용한 지식을 캐내는 기법으로서 최근들어 데이터베이스 분야에서 관심을 받고 있는 분야이다. 마이닝에서 얻을 수 있는 지식에는 연관규칙, 분류규칙, 요약규칙, 클러스터링 등 여러 가지가 있으며 추출된 이러한 지식들은 의사결정, 예측, 예보, 평가 등에 광범위하게 사용된다.
최근 들어서는 마이닝할 수 있는 여건이 조성되어 있는 데이터 웨어하우스로부터 마이닝을 수행하는 데이터 웨어하우스 마이닝이 중요한 응용으로 부상하고 있다. 또한 분산 마이닝이나 WWW 환경하에서의 마이닝 등은 아직 극히 초보단계이므로 많은 연구가 이루어져야 할 것이다.
CART는 Breiman 등(1984)에 의하여 개발된 것인데, 각 (독립)변수를 이분화(binary split)하는 과정을 반복하여 트리 형태를 형성함으로써 분류(종속변수가 범주형일 때)와 회귀분석(종속변수가 연속형일 때)을 수행하는 것으로 다음 과정으로 진행된다.
(1) 트리의 형성 (growing the tree) - 학습 표본을 바탕으로 트리를 형성하는 과정으로 변수의 선정, 분리기준(splitting criterion), 정지규칙(stopping rule) 등의 결정 이슈가 있다.
(2) 가지치기 (pruning) - 트리가 너무 복잡하면 분류규칙 또한 복잡하여지는 등의 문제로 일부의 가지를 절단하여 그 가지 이하에서 더 이상 분리하지 않도록 하는 과정이다.
(3) 분류 - 최종적으로 완성된 트리를 바탕으로 분류 규칙을 도출하고, 기존 또는 새로운 데이터에 대하여 분류를 시행하는 과정이다.
트리형성에 있어 연속형 변수에 대하여서는 통상적으로 다음과 같은 질문을 한다. “변수 X가 상수 b 보다 작은가?”
이 질문에 대한 대답이 ‘예’인 경우에는 왼쪽으로, ‘아니오’인 경우에는 오른쪽으로 분지한다. 학습 표본에 대하여서는 각 객체가 해당 분지로 보내지게 된다. 여기서 상수 b를 정하는 방법이 필요한데 이를 분리 기준(splitting criterion)이라 한다. 분리 기준에 대한 기본 철학은 부모노드보다 자식노드의 순도가 더 높게(purer)하는 것이다. 순도 또는 불순도(impurity)의 척도로 CART에서는 주로 Gini 지수를 사용한다.
그리고, CART에서는 최대한으로 키운 트리를 적절하게 가치치기를 함으로써 보다 예측력이 좋은 분류규칙을 도출코자 한다. 가지치기의 결과로 바로 최종 트리를 얻는 것은 아니며, 우선 최종 트리의 후보가 되는 여러 하부 트리를 얻는다. 이후 후보 트리들에 대하여 분류오류율을 분석하여 가장 적합한 최종 트리를 선정하게 된다.
가지치기의 기준은 통상 오분류비용과 트리의 복잡도를 고려하여 산정한다. 최종 트리 또는 임의의 트리의 최종 노드에 대하여 하나의 범주를 배정하는데, 이의 방법은 단순하게 범주별 객체수를 산출한 후 가장 많은 객체를 갖는 범주를 해당 노드에 배정하는 것이다. 최종적으로 선정된 트리에 대하여 분류규칙을 도출하게 되는데, 뿌리 노드에서 분지된 가지를 따라 최종노드에 이르는 조합들이 조건이 되며 최종노드에 배정된 범주가 결과가 된다.
8. 의료분야 활용
■ 환자나 병원 측에서의 보험사기에 대한 검색과 가장 경제적인 의료제공원을 판별해 내는데 쓰이고, 다른 하나는 이 기법으로 각종 암이나 심장마비 등의 병을 자동진단 하는데 있다.
9. 데이터마이닝 전망
■ 데이터 마이닝 기술은 2000년대의 데이터베이스 주요 응용기술로서 각광을 받게 될 것이므로 우리도 이에 준비를 해야 할 것이다.
데이터 마이닝은 대용량 데이터베이스에 존재하는 여러 가지 유용한 지식을 캐내는 기법으로서 최근들어 데이터베이스 분야에서 관심을 받고 있는 분야이다. 마이닝에서 얻을 수 있는 지식에는 연관규칙, 분류규칙, 요약규칙, 클러스터링 등 여러 가지가 있으며 추출된 이러한 지식들은 의사결정, 예측, 예보, 평가 등에 광범위하게 사용된다.
최근 들어서는 마이닝할 수 있는 여건이 조성되어 있는 데이터 웨어하우스로부터 마이닝을 수행하는 데이터 웨어하우스 마이닝이 중요한 응용으로 부상하고 있다. 또한 분산 마이닝이나 WWW 환경하에서의 마이닝 등은 아직 극히 초보단계이므로 많은 연구가 이루어져야 할 것이다.
추천자료
사례를 통한 CRM 구축방안
고객관계관리(CRM)시스템 구축 및 활용실태
의사결정지원시스템(DSS Decision Support System)사례
고객 관계 관리CRM (Customer Relationship Mana gement)논문
정부기관경영평가시스템의회고와발전방안
고객관계관리 [비즈니스/경제]
성공적인 CRM(고객관계관리)전략수립 방안
경영학콘서트 독후감-요약 및 느낀점
고객만족과 CRM의 실천방안에 대해서 서술
경영정보시스템
selc 인강 CRM 고객관계관리전략 (01강~15강)
의료정보학 중요 정리 - 전자 의무 기록, 병원정보시스템(HIS), 보건의료정보 표준화, 의료영...
CRM(Customer Relationship Management : 고객관계관리) 개요와 사례 보고서 (CRM 정의·개념·...
selc 고객관계관리 기말자료 족보 (09주차~15주차)
소개글