정보검색론 기말고사 - 교육 레포트

본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

구성
문서의 자동분류(1) ~ (3)
문서 클러스터링
문서 클러스터링: 분류자질
문서 클러스터링: 유사성척도(1) ~ (3)
문서 클러스터링: 알고리즘(1) ~ (9)
문서 클러스터링: 평가척도(1)
문서 클러스터링 응용사례(1) ~ (3)
문서 범주화
문서 범주화: 자질선정 기준(1) ~ (2)
자질선정 기준의 선택
문서 범주화 기법
나이브 베이즈 기법(1) ~ (3)
kNN 분류기(1) ~ (2)
SVM 분류기
문서 범주화: 평가척도
문서 범주화 응용사례(1) ~ (2)
통합 자동분류 사례 - SONIA
통합 자동분류 사례 - Scorpion

본문내용

러스터로 나누고 각 클러스터를 이용자에게 제시 -> 이용자는 하나 이상의 클러스터를 선택(gather)하거나 원래의 클러스터를 다시 세분(scatter)하는 과정을 반복 -> 적합 문서에 도달
문서 클러스터링 응용사례(3)
n정보시각화
n검색결과를 이용자가 쉽게 해석할 수 있도록 검색된 문서 및 문서간의 관계를 클러스터링 기법을 이용하여 시각적으로 표현
n특정 클러스터에 포함된 문서들을 대표하는 키워드나 색인어를 추출, 이용자에게 보여줌으로써 특정 클러스터의 내용을 파악할 수 있도록 함
문서 범주화
n문서 범주화의 원리: 학습
n범주화 규칙 지식베이스를 이용하는 규칙기반 방법
n수동으로 분류된 학습집단을 이용한 학습 결과 입력문서를 자동으로 분류
n문서 범주화 기법의 구성요소
n분류대상물: 문서집합
n분류대상물은 학습집단과 검증집단으로 구분된다.
n분류자질
n범주화 기법/분류기(classifier)
문서 범주화: 자질선정 기준(1)
n문헌빈도(document frequency)
n일정 빈도 이상의 문헌에 출현한 용어를 자질로 선정하는 가장 간단한 기법
n 정보획득량(information gain)
n 특정 문헌 내에서의 특정 단어의 출현 여부를 통해서 특정 문헌이 포함되어야 할 범주를 예측하는데 사용된 정보의 비트 수
n 기계학습분야에서 단어의 유용성 측정 기준
문서 범주화: 자질선정 기준(2)
n상호정보량(mutual information)
n두 단어 중 한 단어가 다른 단어에 대해 갖고 있는 정보량
n 카이제곱 통계량(2 statistics)
n 단어 t 와 범주 c 간의 의존성 측정
n 두 값의 차가 클수록 특정 단어 t 가 자질로 선정될 확률이 높음
자질선정 기준의 선택
n일반적으로 정보획득량, 카이제곱 통계량, 문헌빈도를 이용한 자질선정 기법이 좋은 범주화 성능을 보임
n정보획득량과 카이제곱 통계량은 계산복잡도가 크므로, 시간과 비용을 절감할 수 있는 문헌빈도를 이용하는 것도 효과적
n범주화 성능에 영향을 미치지 않고 자질을 축소할 수 있는 수준: 약 90% 이상의 자질의 제거가 가능
문서 범주화 기법
n나이브 베이즈(Naive Bayes)
nkNN(k-Nearest Neighbor)
nSVM(Support Vector Machine)
n의사결정 트리(Decision Tree)
n신경망(Neural Network)
n다중회귀모형(LLSF: Linear Least Squares Fit)
n센트로이드 기반 분류
나이브 베이즈 기법(1)
n베이지언 확률 모형에 기초
n사건 E와 Ci가 있을 때, E에 대해 Ci가 발생할 확률
n학습문서에 나타난 어휘들이 특정 범주의 문서에 나타날 확률을 계산하여 새로운 문서의 범주를 예측하는 방법
n자질들 사이의 독립성을 가정하여 입력문서에 대한 범주의 확률을 계산
나이브 베이즈 기법(2)
n문서분류에 적용하는 경우
n 분류하려는 특정 문서에 단어 W1, W2, W3,…,Wn 이 출현하는 경우를 사건 E 라 하고,
n 문서가 특정 범주 cj 에 분류되는 경우를 Cj 라고 할 때 특정 문서가 범주 Cj 에 분류될 확률
나이브 베이즈 기법(3)
n이 때,
n이 기법에서는 단어의 출현은 독립적이며, 범주의 할당은 상호배타적이라고 가정한다.
kNN 분류기(1)
n입력문서와 가장 유사한 k개의 학습문서를 찾아 그 문서들에 이미 할당된 범주정보를 이용하여 입력문서의 범주를 결정
(1) 입력문서와 코싸인 유사도가 높은 상위 k개의 이웃 문서를 학습집단에서 찾아낸다.
nDj가 학습문서이고 Dx가 입력문서 일 때 Dj와 Dk간의 코사인 유사도 공식
ntxk, tjk = Dx, Dj 벡터에 출현한 용어 k의 가중치
kNN 분류기(2)
(2) 입력문서와 이웃문서와의 유사도는 이웃문서의 범주 가중치로 사용되며, 만약 이웃문서들이 범주를 공유하고 있을 때에는 범주 가중치는 높아지게 된다.
(3) 추출된 k개의 문서들을 통해 입력문서에 대한 각 범주(ck)의 적합성(rel(Ck|Dx))을 계산한 후 기준치 이상인 범주를 입력문서의 범주로 할당한다.
SVM 분류기
n두 개의 범주를 구성하는 데이터들을 가장 잘 분리해낼 수 있는 결정면을 찾아내는 모형
n문자인식, 얼굴인식, 문서 범주화 등에 이용
n kNN 분류기와 비슷한 고성능 분류기
문서 범주화: 평가척도
n범주화 정확률
n시스템에 의해 할당된 범주 중 적합범주의 수 / 시스템에 의해 할당된 범주의 총 수
n 범주화 재현율
n 시스템에 의해 할당된 범주 중 적합범주의 수 / 적합범주의 총 수
n11-point 평균정확률
문서 범주화 응용사례(1)
n전자우편 범주화
n정보 필터링
nCollaborative Filtering (Recommendation)
n특정 분야에 대한 이용자의 선호도를 학습하여 그 분야의 새로운 정보에 대해 이용자의 선호도를 분석, 추천할 수 있음(Amazon의 도서추천)
n도서관에서 특정 이용자의 대출이력을 학습한 후에 신간도서가 입수되면 학습을 통해 얻어진 그 이용자의 선호도를 기준으로 신착도서 안내 서비스를 제공할 수 있음
문서 범주화 응용사례(2)
n디렉토리 서비스
n웹 문서들을 각 검색엔진이 제공하는 디렉토리 범주로 자동분류 (예: Cora)
n웹에이전트 (사례: WebACE, Iwingz)
n웹상의 방대한 문서를 탐색하고 범주화하기 위한 에이전트 기술
n이용자 프로파일을 생성, 이용자 개인의 선호도 파악 과정을 거쳐 정보 필터링
n사전 분류체계가 없는 상태에서 완전 자동의 범주화를 시도
통합 자동분류 사례 - SONIA
n Project (Stanford Univ.)
n 인터넷 문서의 조직
n 범주화와 군집화를 선택적으로 적용
n 군집화시 비계층적 기법과 계층적 기법( 평균연결기법) 을 모두 이용
n 다단계 분류자질 선정기법 적용
n 불용어 제거, 고빈도/ 저빈도어 제거, 정보이론 적용
통합 자동분류 사례 - SONIA
통합 자동분류 사례 - Scorpion
n Scorpion Project (OCLC)
n인터넷 문서의 조직
n범주화 수행 후 군집화 처리
n동일한 DDC 분류번호가 부여된 문서 집단의 세분화에 싱글 패스 기법을 이용

키워드

기말고사, 정보검색론, 정보검색

목차

본문내용

키워드

추천자료