인터넷 정보검색효율의 측정방법, 인터넷 정보검색효율과 최적화, 인터넷 정보검색효율과 인덱스기법, 인터넷 정보검색효율과 TREC(세계검색컨퍼런스), 인터넷 정보검색효율과 시그니쳐트리, 데이터베이스(DB) 분석

본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

인터넷 정보검색효율의 측정방법, 인터넷 정보검색효율과 최적화, 인터넷 정보검색효율과 인덱스기법, 인터넷 정보검색효율과 TREC(세계검색컨퍼런스), 인터넷 정보검색효율과 시그니쳐트리, 데이터베이스(DB) 분석에 대한 보고서 자료입니다.

Ⅰ. 개요

Ⅱ. 인터넷 정보검색효율의 측정방법
1. 정보검색시스템
2. 인터넷 검색엔진

Ⅲ. 인터넷 정보검색효율과 최적화

Ⅳ. 인터넷 정보검색효율과 인덱스기법

Ⅴ. 인터넷 정보검색효율과 TREC(세계검색컨퍼런스)

Ⅵ. 인터넷 정보검색효율과 시그니쳐트리
1. 시그니쳐 변환
2. 셀 기반 시그니쳐 트리
1) 트리의 중간 노드(internal node)와 리프 노드(leaf node)에 특징 벡터 대신 시그니쳐를 저장하는 구조(Tree with Cell-based Signatures in all nodes ; CS-트리)이다
2) 중간 노드(internal node)는 셀을 포함하는 MBR에 대한 시그니쳐를 저장하고 리프 노드(leaf node)에는 실제 특징 벡터를 저장하는 구조(Tree with Cell-based signatures in Internal nodes ; CI-트리)이다
3. 유사성-기반 질의 처리 알고리즘

Ⅶ. 인터넷 정보검색효율과 데이터베이스(DB)
1. 수록정보
2. 색인 파일
3. 명령어체계
4. 검색결과의 표시

참고문헌

본문내용

의 코멘트문과 META태그 중의 문자도 포함된다. 색인파일과 표시파일은 그 페이지의 URL과 대응된다. 검색엔진에는 상용데이터베이스의 레코드에 해당하는 부분은 엔진내에 갖고 있지 않으며 URL에서 링크를 따라 찾게 된다.
색인파일은 탐색의 정확률을 결정하는 중요한 부분인데 로봇형 엔진에는 페이지 全文으로부터 작성되는 경우 및 페이지의 맨 앞에서 문자수를 한정해서 작성되는 경우 등이 있다.
상용데이터베이스의 색인은 키워드의 절단 방식이라는 점에서 데이터베이스 마다 차이가 있는데 원칙으로 명사의 단어 단위에서 절단한다. 색인은 레코드 가운데의 단어 마다에 그 단어의 출현빈도수, 그 단어가 레코드 중 몇 번째에 있는가의 위치정보 등을 기록하여 인버티드파일(치환파일)로 작성된다. 인버티드파일은 타이틀, 저자명 등 필드로 구성되어져 있다. 상용데이터베이스에서 탐색은 입력된 키워드와 인버티드필드 중의 단어와 대조되는 형태로 행하여진다.
한편 검색엔진도 똑같이 색인파일이 만들어진다. 그러나 색인 방법에서는 반드시 명사의 단어 단위에서 만들어진다고만 할 수는 없다. 특히, 검색엔진에서는 문장을 품사단위에서 분할하여 형태소해석의 기술과 문장을 문자단위에서 분할하여 1문자, 2문자단위의 색인파일을 작성하는 등 자연언어처리의 연구성과를 채택한 것이 많으며 기존 상용데이터베이스에서 사용하지 않는 색인파일을 만들고 있는 경우가 있다. 그 결과, 예로는 [아름답다]라는 형용사와 [아름답게된다]라는 동사에서의 탐색과 [최고의 문명]은 [최고][의][문명]과 같이 색인되고 동시에 탐색하면 입력문자 [최고의 문명]도 입력문자처리 프로그램에서 [최고][의][문명]이라고 한번 분해된 다음 색인파일과의 대조를 하게 된다.
형용사와 부사, 동사 등에서 탐색이 보다 정확한 검색결과를 갖고 올 것인지는 좀 더 검증이 되어야 하겠지만 적어도 기존의 상용데이터베이스하고는 전혀 다른 관점에서 탐색이 가능하게 되어 있다는 것을 이해하는 것이 필요하다.
3. 명령어체계
인터넷 검색엔진의 명령어체계는 대체로 상용데이터베이스와 같다. 대부분의 검색엔진에는 AND, OR, NOT 등의 블리언 연산과 인접연산이 가능하다. 검색엔진에서는 상용데이터베이스에서 일반적으로 있을 수 있는 표제, 저자의 필드를 지정하는 등의 제한탐색이 없다는 점이다. 상용데이터베이스에서는 필드를 지정하는 것으로 검색결과를 좁혀가거나 세밀한 탐색이 가능하다. 이와 유사한 기능으로 검색엔진 중에는 html의 표제 태그와 URL 사이트 등에서 제한 기능이 있는데 세밀하게 사용되는 기능이라고 할 수 없다.
4. 검색결과의 표시
검색엔진에는 수록정보의 내용과 형식이 다양하다는 것, 자연어(free word)로서만 탐색을 할 수 밖에 없다는 점에서, 적합성을 판단하는데 있어서도, 검색된 결과의 표시에도 각자 스스로 노력으로 얻어지는 경우가 많다.
그 하나로 적합도를 평점화하는 기능이 있다. 이러한 기능은 상용데이터베이스인 DIALOG에서 일부 사용되어지고 있는 예외는 볼 수 있지만 모든 종류의 정보를 수록하고 있는 검색엔진에는 검색결과를 판단하는 시간을 줄여나가는 기능으로서 많은 엔진에서 채용되고 있다.
평점을 부여 하는것은 키워드의 출현빈도와 문서 전체에 대한 키워드의 수, 키워드가 문서 중에 어디에 있는가 등에 가중치를 주어 그 데이터를 통계적으로 처리하여 산출하고 있다고 알려져 있다.
또한 표시내용에는 검색문서의 크기도 기재되어 있을 수 있다. 평점과 문서 크기의 표시는 검색결과 중 적합도가 높은 것만을 본다던지 크기를 참조하여 필요한 자료를 선택하는데 이용할 수 있다. 이러한 기능은 상용데이터베이스에도 유용한 것만 아니라 정보내용도 형식이 각각이고 자연어 탐색만 할 수 있는 인터넷에서는 적극적으로 활용하여야할 서비스이다.
참고문헌
김종애(2009), 학술정보이용자의 서지데이터베이스 검색과정의 사고발화, 한국비블리아학회
김현희 외 1명(1999), 인터넷 데이터베이스와 온라인 데이터베이스의 검색시스템 검색효율 비교, 명지대학교문헌정보학회
송광택 외 1명(2000), 셀기반 시그니쳐 트리 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 구조, 한국정보과학회
윤구호(1981), 정보검색효율에 관한 연구, 한국도서관·정보학회
정기태 외 1명(2004), 디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구, 한국정보관리학회
홍상균(2007), DNA 시퀀스 검색을 위한 효율적인 인덱스 기법, 한림대학교

키워드

인터넷 정보검색효율, 정보검색, 인터넷, TREC, 시그니쳐트리

소개글

목차

본문내용

키워드

추천자료