지능형 분류기법 (Intelligent Classification)에 대한 과제

본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

지능형 분류기법 (Intelligent Classification)에 대한 과제에 대한 보고서 자료입니다.

본문내용

4개의 범주형변수와 4개의 연속형변수로 구성되어있고, 데이터 레코드수의 수는 총 398 개이다.
③ 변수 정보
cylinders : 엔진의 실린더 개수(범주형 변수)
displacement : 배기량 (연속형 변수)
horsepower : 차량 마력 (연속형 변수)
weight : 차량 중량 (연속형 변수)
acceleration : 가속 (연속형 변수)
model year : 차량모델 연도 (범주형 변수)
origin : 차량생산국 ((범주형 변수) 1 = usa; 2 = europe; 3 = japan)
mpg-1 : mpg (miles per gallon : 1갤론의 연료로 몇 마일을 운행하는가)에 따른 차량의 등급 분류 (범주형 변수)를 나타내고 있으며 이를 표로 요약하면 다음 [표 1]과 같다.
[표 1] mpg에 따른 차량 등급분류
Mpg-1
등급
1~10
6
11~15
5
16~25
4
26~35
3
36~45
2
46~49
1
(2) 해당 기법을 이용해서 분석할 내용 (Assignment 1)
(1) C5.0 과 CART를 이용하여 종속변수인 (MPG)를 설명하는 모형을 구축하시오.
(가)c5.0
(나)cart
(2) 규칙이 분류되는 깊이(Depth)를 5로 하였을 때 테스트자료에 대한 두 방법론사이의 예측력 차이(정확도)를 비교분석 하시오.
위 그림3을 보면 C5.0의 정확성이 96.2% ,CART의 정확성이 85.97%로 나타난다. 따라서 c5의 정확성이 cart 보다 높다.
(3) C5.0과 CART의 분석결과를 교차표를 사용하여 작성하고 그 의미를 기술하시오.
(2)번 문제와 마찬가지로 c5의 정확성이 cart 보다 높다. CART가 주로 종속변수가 이분형 자료인 경우에 사용하는 반면에 C5.0의 경우는 범주형인 경우에도 적용가능하다. 자료의 종속변수가 범주형이므로 C5.0가 더 정확성이 높다.
■ 예측기법인 인공신경망(Artificial Neural Network)문제
(1) 문제에 대한 배경설명과 변수설명 - 심장병(heart-disease)에 관한 자료
① 자료출처
이 자료는 심장병 판단분석에 관한 자료로써, 네 지역의 병원 데이터베이스(database)에서 추출된 자료이다.
Cleveland Clinic Foundation
Hungarian Institute of Cardiology, Budapest
V.A. Medical Center, Long Beach, CA
University Hospital, Zurich, Switzerland
② 관련 정보
이 자료의 변수들은 심장병 진단과 관련된 항목들로써 총 14개(5개의 연속형변수와 4개의 이분형변수, 그리고 5개의 범주형 변수)의 변수로 구성되어 있고, 데이터 레코드의 수는 총 303 개이다.
(2) 해당 기법을 이용해서 분석할 내용 (Assignment 2)
(1)심장병 자료(heart-disease database)를 이용하여 인공신경망 분석을 실시하고 최적의 모형을 찾으시오. 그리고 왜 최적의 모형으로 선정하였는지 그 이유를 설명하시오.(단 분석 시 학습자료는 전체자료의 70%를 사용하고 검증자료는 나머지 30%를 사용하시오.)
=>최적의 모형을 선정하기 위해서 노드의 수를 입력변수의 수에서 2배까지 시행착오로 시행하였고, 정확성이 가장 높았던 노드의 수를 선택하였다.
(2) CART를 이용하여 분석해보고 인공신경망으로 했을 때와 설명력을 비교분석하시오. (단, Data는 검증데이터를 사용하시오.)
=>시행착오횟수가 많아질수록 인공신경망의 결과가 CART의 결과보다 정확도가 높은 경우가 더 많았다.
(3) 은닉노드 및 은닉층을 많이 늘이면 발생할 수 있는 문제점에 대해서 논하시오.
=>
은닉층에 대한 내부 계산결과를 정확히 알 수 없고
정확성은 높으나 학습률이 과대평가된다.
때문에 일반화하는데 어려움이 있다.
시행착오 횟수의 증가로 시간이 많이 걸린다는 단점이 있다.
■ 군집분석방법인 K-means 기법
(단위:%)
(1) 문제에 대한 배경설명과 변수설명 - 정권별 지배권력의 지역간 단순 분포에 관한 자료
① 자료출처
이 자료는 정권별 지배권력의 지역별 분포에 관련된 자료로써 최평길 외의 ‘사례중심 다변량분석론’에서 발췌하였다.
② 관련 정보
지배권력 집단이 정권별, 지역별로 어떻게 분포하고 있는가를 비율로 나타내었다. 정권의 지역별 배분이란 여기서는 최고 권력자를 제외한 지배권력의 지역간 분포상태를 의미한다.
(2) 해당 기법을 이용해서 분석할 내용 (Assignment 3)
(1) 각 정권에 대하여 2개의 군집으로 지역집단을 분석한 결과와 3개의 군집으로 지역집단을 분석한 결과를 각각의 정권별로 나누어서 테이블에 작성하시오.(모든 분석에서 거리필드생성, 군집근접도 표시를 하고 나머지는 디폴트로 놔두고 실행한다.)
(가) 노태우정부
2군집 3군집
(나) 김영삼정부
2군집 3군집
(다) 김대중정부
2군집 3군집
(2) 2개의 군집으로 지정한 후 노태우 정부와 김대중 정부의 결과 값을 비교ㆍ분석하시오.
2개의 군집으로 지정하였을 때 김대중, 노태우 정부 둘 다 군집2의 경우가 군집1의 경우보다 중요도가 높았다. 이는 특정 지역의 집중도가 높음을 의미한다. 아직까지 뿌리 깊히 남아있는 지역감정주의 가 반영된 사례로서 당시 호남을 기반으로 한 김대중 정부는 전남지역에서 지배권력 집단을 특히 많이 배출하고 있음을 분석할 수 있다.
(3) 3개의 군집으로 지정한 후 세 정권의 지역별 지배권력의 특징을 비교하시오.
아래 그림과 같이 노태우 정부는 군집2의 중요도가 높으며 이는 경남, 경북 지역이다. 그리고 김영삼 정부의 경우 군집1, 군집2의 중요도가 높으며 이또한 경남, 경북, 경기 지역입니다. 김영삼 정부와 노태우 정부의 경우는 특정 지역이 겹치고 있으며 경상도를 기반으로 한 정권이기에 인사시에 반영된 것으로 보인다.
반면 김대중 정부의 경우 군집2, 군집3의 경우 중요도가 높으며 이 지역은 전라남도 광주지역이다. 앞의 (2)번 문제와 같이 한국사회의 지역주의로 사례로 전남지역에서 인사배출이 많았던 것을 볼 수 있다.
(가)노태우정부
(나)김영삼정부
(다)김대중정부

키워드

지능형 분류기법, 이건창, 비지니스, 데이터마이닝, 군집분석, WEKA, weka, 클레멘타인

소개글

목차

본문내용

키워드

추천자료