Data Mining Project Report - 데이타마이닝 분석 프로젝트

본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

1. 서론
(1) 분석주제
(2) 분석목적
(3) 자료설명

2. 본론
(1) 군집 수 결정하기
① 주성분분석
② CCC plot
③ Dendrogram
(2) K-means Clustering
① Partition tab
② Decision Tree
③ Distance tab
(3) Partitioning (proc fastclus)
(4) SOM/Kohonen (SOM ; Self-Organizing Map)
① Partition tab
② Decision Tree

3. 결론
* References

본문내용

수 있다.
3. 결론
K-means 군집 분석은 비 계층적 군집방법으로 간단하고 가장 보편적으로 이용된다. 사전에 결정된 군집 수 K에 기초하여 전체 데이터를 상대적으로 유사한 K개의 군집으로 구분하는 방법이다. 만약 모든 변수들이 독립적이라면 군집은 형성되지 않을 것이고 모든 변수가 종속적이라면 하나의 군집을 형성하게 된다.
K-means 군집분석 방법을 수행하면 초기에 지정한 K개의 군집이 만들어진다. 이 때 처음에 랜덤하게 선택되는 중심 값과 군집의 개수 K에 따라 군집 분석 결과가 많이 달라질 수 있어 군집의 유일성은 보장되지 않는다는 단점을 가진다. 따라서 전체 개체를 대상으로 최적 군집을 찾기보다는 최종 군집의 개수가 K라는 제한 조건 하에서 차선의 군집을 찾게 된다. 또한 이 방법은 군집 내에 속한 개체들에 대한 계층적 구조에 대한 정보는 제공하지 않기 때문에, K개의 군집들 간에 한 군집이 나머지 다른 군집들 중에 어느 군집과 더 비슷하다고 이야기할 수 없다. 즉, 계층적 방법과 달리 군집 간 계층적 구조가 없으며 군집 내에 있는 개체들 간 유사성에 대한 정보를 알 수 없다.
SOM은 신경망 알고리즘의 한 종류이다. 이는 경쟁 학습을 통해 다차원의 입력 데이터를 저차원으로 시각화하며, 데이터 군집화에 주로 사용된다. SOM은 학습단계에서 피드백 과정이 없어 구조적으로 학습수행이 상대적으로 빨라서 실시간 학습처리가 가능한 모델이다. 또한 연속적인 학습이 가능하여 추가적으로 입력되는 개체에 대한 군집화가 가능하다. SOM은 자기조직화가 가능한 통계적 알고리즘이기 때문에 대량의 데이터를 이용한 군집화 선행 학습이 필요 없다.
K-means Clustering과 SOM은 모두 한계를 가진다. K-means 방법은 계층적 군집분석방법에 비해 거리 계산을 적게 하지만 한 번의 iteration을 위해서는 모든 데이터를 읽어야 하기 때문에 데이터 크기, 원하는 클러스터 개수, 원소의 차원 및 원소에 대한 반복 회수에 비례하여 시간 복잡도 시간 복잡도란 알고리즘을 구성하는 명령어들이 몇 번이나 실행되는지를 센 결과(Frequency Count)에 각 명령어의 실행 시간(Execution Time)을 곱한 합계를 의미한다.
가 커진다.
SOM 방법은 map이 작거나 map이 지나치게 크면서 데이터가 적은 경우 clustering 변별력이 떨어진다. 또한 이 방법은 입력 데이터 개체의 입력 순서에 따라 분석 결과가 달라진다. SOM은 데이터에 대한 사전 정보를 아는 경우 그렇지 않은 경우에 비해 분석 결과가 더 좋다.
군집 분석은 데이터에 대한 사전 정보가 충분하지 않을 때 자료의 대략적인 특징을 파악하기 위해 사용하는 방법이다. 따라서 SOM/Kohonen Node보다는 Clustering Node를 사용하여 군집분석 하는 것이 더 정확하다고 할 수 있다.
* 자료출처
UCI Machine Learning Repository (http://archive.ics.uci.edu/ml/datasets/Zoo)
* References
[1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.
Infinity Books. 2007. 488-497, 591-596.
[2] 조인호. SAS 강좌와 통계컨설팅. 영진닷컴. 2006. 606-639, 680-695.
[3] 최종후, 한상태, 강현철, 김은석, 김미경. 데이터마이닝. 자유아카데미. 1999. 113-141.
[4] http://swjang.springnote.com/
name
　
mongoose
고양이족제비
aardvark
땅돼지
moth
나방
antelope
영양
newt
영원
bass
배스 《농어의 일종》
octopus
문어, 낙지
bear
곰
opossum
주머니쥐
boar
멧돼지
oryx
오릭스 《큰 영양;아프리카산(産)》
buffalo
물소;들소
ostrich
타조
calf
송아지
parakeet
(작은) 잉꼬
carp
잉어
penguin
펭귄
catfish
메기
pheasant
꿩
cavy
기니피그
pike
창꼬치
cheetah
치타
piranha
피라냐 《이빨이 날카로운 남미산(産) 민물고기》
chicken
닭
pitviper
반시뱀·살무사·방울뱀
chub
처브 《유럽산 잉엇과(科) 황어속(屬)의 담수어》
platypus
오리너구리
clam
대합조개
polecat
긴털족제비
crab
게
pony
조랑말
crayfish
가재
porpoise
돌고래
crow
까마귀
puma
퓨마
deer
사슴
pussycat
　
dogfish
작은 상어
raccoon
미국너구리
dolphin
돌고래
reindeer
순록
dove
비둘기
rhea
아메리카 타조
duck
오리
scorpion
전갈
elephant
코끼리
seahorse
해마
flamingo
플라밍고
seal
바다표범;물개
flea
벼룩
sealion
강치
frog
　
seasnake
바다뱀
frog
　
seawasp
　
fruitbat
큰박쥐
skimmer
제비갈매기 무리
giraffe
기린
skua
도둑갈매기
girl
　
slowworm
도마뱀의 일종
gnat
모기(mosquito)
slug
민달팽이
goat
염소
sole
서대기
gorilla
고릴라
sparrow
참새
gull
갈매기
squirrel
다람쥐
haddock
해덕 《대구의 일종;북대서양산》
starfish
불가사리
hamster
햄스터
stingray
가오리
hare
산토끼
swan
백조, 고니
hawk
매
termite
흰개미
herring
청어
toad
두꺼비
honeybee
꿀벌
tortoise
남생이, 거북
housefly
집파리
tuatara
큰도마뱀
kiwi
키위
tuna
참치
ladybird
무당벌레
vampire
흡혈 박쥐
lark
종다리, 종달새
vole
들쥐
leopard
표범
vulture
독수리
lion
사자
wallaby
작은 캥거루
lobster
바닷가재
wasp
말벌
lynx
스라소니
wolf
늑대
mink
밍크 《족제비 무리》
worm
땅벌레,구더기
mole
두더지
wren
굴뚝새

키워드

데이타마이닝 , data mining, 분석, 프로젝트, report

목차

본문내용

키워드

추천자료