웹사이트의 자동분류를 위한 하이퍼링크 정보를 이용한 방법
본 자료는 2페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
해당 자료는 2페이지 까지만 미리보기를 제공합니다.
2페이지 이후부터 다운로드 후 확인할 수 있습니다.

목차

1. 머리말

2. 문서기반 분류의 방법

3. 하이퍼링크 정보를 이용한 분류 방법

4. 하이퍼링크 정보를 이용한 실험대상 및 방법
4.1 실험대상
4.2 수집한 URL에 의한 웹사이트와 카테고리의 표현
4.3 URL에 의한 유사도 계산

5. 실험 결과분석
5.1 중간 분류 체계
5.2 대분류 체계
5.3 결과분석

6. 결론 및 향후 연구과제

참고문헌

본문내용

확도를 나타내었고, 야후의 대분류 체계가 중간 분류 체계인 Science 카테고리보다 벡터유사도를 이용한 방법이 23.6%, 베이지안 확률을 이용한 방법이 30.1%로 높은 정확도를 나타내었다. 카테고리간에 관련성이 적고 URL 정보가 많은 대분류 체계의 경우 78.9%의 높은 분류 정확도를 보임으로서 하이퍼링크 정보의 효용성이 입증되었다.
향후 연구과제로는 분류방법을 변화시켜 최적의 분류방법을 찾는 실험, URL 정보를 텍스트와 함께 분류와 필터링에 사용하는 다양한 방법에 대한 연구가 필요하다.
분류방법을 변화시켜 최적의 분류방법을 찾는 실험은 URL 형식에서 hostname에 path_to_resource를 포함하여 path_to_resource의 깊이에 변화에 따른 재현율과 정확도를 실험하고, 분류하려는 웹사이트의 하이퍼링크 깊이 변화에 따른 재현율과 정확도를 실험하여 최적의 분류방법을 찾는 연구가 필요하다.
URL 정보와 텍스트를 함께 분류와 필터링에 사용하는 방법은 실험적으로 중요 단어일 확률이 높은 META tag와 Title tag에 존재하는 단어들과 하이퍼링크를 이용하는 방법을 접목시켜 웹사이트를 분류하려는 방법과 페이지의 성격에 따라 하이퍼링크와 통계적인 분류방법을 차등사용하는 방법 등과 같이 다양한 방법에 대한 연구가 필요하다.
참고문헌
김동욱, 류준형, 주원균, 맹성현,"링크정보를 이용한 검색 신뢰도의 향상", 한국 정보과학회 학술발표 논문집, 4,1998.
조광제, 역 카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동분류, 동국대학교, 석사학위논문, 1997.
W.Frakes and R.Baeza-Yates, Information Retrieval, Prentice Hall, 1992.
M. Blosseville, G. Hebrail, M. Monteil, N. Penot, "Automatic document classification: natural language processing, statistical analysis, and expert system techniques used together", SIGIR'92, 1992.
W.Croft, H. Turtle, "A retrieval model for incorporating hypertext links", Hypertext'89, 1989.
H. Ffre. D. Stieger, "The use of semantic links in typertext information retrieval", Information Processing & Management, 31, 1995.
R. Hoch, "Using IR Techniques for text classification in document analysis", SIGIR'94, 1994.
Michael N. Huhns, Munundar P. Singh, Reading in Agents, Morgan Kaufmann Publishers, 1997.
Jeffrey M. Bradshaw, Software Agents, AAAI press, 1997.
http://www.mochanni.com/.
http://www.webcrawler.com/.
Dunja Mladenic, "Personal WebWatcher : design and Implementation", Carnegie Mellon University, 1996.
Michael Pazzani, Jack Muramatsu & Daniel Billsus, "Syskill & Webert: Identifying interesting web sites", AAAI, 1996
  • 가격2,500
  • 페이지수8페이지
  • 등록일2008.08.18
  • 저작시기2008.8
  • 파일형식한글(hwp)
  • 자료번호#476250
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니