목차
Ⅰ. 개요
Ⅱ. 인터넷 정보검색효율의 측정방법
1. 정보검색시스템
2. 인터넷 검색엔진
Ⅲ. 인터넷 정보검색효율과 최적화
Ⅳ. 인터넷 정보검색효율과 인덱스기법
Ⅴ. 인터넷 정보검색효율과 TREC(세계검색컨퍼런스)
Ⅵ. 인터넷 정보검색효율과 시그니쳐트리
1. 시그니쳐 변환
2. 셀 기반 시그니쳐 트리
1) 트리의 중간 노드(internal node)와 리프 노드(leaf node)에 특징 벡터 대신 시그니쳐를 저장하는 구조(Tree with Cell-based Signatures in all nodes ; CS-트리)이다
2) 중간 노드(internal node)는 셀을 포함하는 MBR에 대한 시그니쳐를 저장하고 리프 노드(leaf node)에는 실제 특징 벡터를 저장하는 구조(Tree with Cell-based signatures in Internal nodes ; CI-트리)이다
3. 유사성-기반 질의 처리 알고리즘
Ⅶ. 인터넷 정보검색효율과 데이터베이스(DB)
1. 수록정보
2. 색인 파일
3. 명령어체계
4. 검색결과의 표시
참고문헌
Ⅱ. 인터넷 정보검색효율의 측정방법
1. 정보검색시스템
2. 인터넷 검색엔진
Ⅲ. 인터넷 정보검색효율과 최적화
Ⅳ. 인터넷 정보검색효율과 인덱스기법
Ⅴ. 인터넷 정보검색효율과 TREC(세계검색컨퍼런스)
Ⅵ. 인터넷 정보검색효율과 시그니쳐트리
1. 시그니쳐 변환
2. 셀 기반 시그니쳐 트리
1) 트리의 중간 노드(internal node)와 리프 노드(leaf node)에 특징 벡터 대신 시그니쳐를 저장하는 구조(Tree with Cell-based Signatures in all nodes ; CS-트리)이다
2) 중간 노드(internal node)는 셀을 포함하는 MBR에 대한 시그니쳐를 저장하고 리프 노드(leaf node)에는 실제 특징 벡터를 저장하는 구조(Tree with Cell-based signatures in Internal nodes ; CI-트리)이다
3. 유사성-기반 질의 처리 알고리즘
Ⅶ. 인터넷 정보검색효율과 데이터베이스(DB)
1. 수록정보
2. 색인 파일
3. 명령어체계
4. 검색결과의 표시
참고문헌
본문내용
의 코멘트문과 META태그 중의 문자도 포함된다. 색인파일과 표시파일은 그 페이지의 URL과 대응된다. 검색엔진에는 상용데이터베이스의 레코드에 해당하는 부분은 엔진내에 갖고 있지 않으며 URL에서 링크를 따라 찾게 된다.
색인파일은 탐색의 정확률을 결정하는 중요한 부분인데 로봇형 엔진에는 페이지 全文으로부터 작성되는 경우 및 페이지의 맨 앞에서 문자수를 한정해서 작성되는 경우 등이 있다.
상용데이터베이스의 색인은 키워드의 절단 방식이라는 점에서 데이터베이스 마다 차이가 있는데 원칙으로 명사의 단어 단위에서 절단한다. 색인은 레코드 가운데의 단어 마다에 그 단어의 출현빈도수, 그 단어가 레코드 중 몇 번째에 있는가의 위치정보 등을 기록하여 인버티드파일(치환파일)로 작성된다. 인버티드파일은 타이틀, 저자명 등 필드로 구성되어져 있다. 상용데이터베이스에서 탐색은 입력된 키워드와 인버티드필드 중의 단어와 대조되는 형태로 행하여진다.
한편 검색엔진도 똑같이 색인파일이 만들어진다. 그러나 색인 방법에서는 반드시 명사의 단어 단위에서 만들어진다고만 할 수는 없다. 특히, 검색엔진에서는 문장을 품사단위에서 분할하여 형태소해석의 기술과 문장을 문자단위에서 분할하여 1문자, 2문자단위의 색인파일을 작성하는 등 자연언어처리의 연구성과를 채택한 것이 많으며 기존 상용데이터베이스에서 사용하지 않는 색인파일을 만들고 있는 경우가 있다. 그 결과, 예로는 [아름답다]라는 형용사와 [아름답게된다]라는 동사에서의 탐색과 [최고의 문명]은 [최고][의][문명]과 같이 색인되고 동시에 탐색하면 입력문자 [최고의 문명]도 입력문자처리 프로그램에서 [최고][의][문명]이라고 한번 분해된 다음 색인파일과의 대조를 하게 된다.
형용사와 부사, 동사 등에서 탐색이 보다 정확한 검색결과를 갖고 올 것인지는 좀 더 검증이 되어야 하겠지만 적어도 기존의 상용데이터베이스하고는 전혀 다른 관점에서 탐색이 가능하게 되어 있다는 것을 이해하는 것이 필요하다.
3. 명령어체계
인터넷 검색엔진의 명령어체계는 대체로 상용데이터베이스와 같다. 대부분의 검색엔진에는 AND, OR, NOT 등의 블리언 연산과 인접연산이 가능하다. 검색엔진에서는 상용데이터베이스에서 일반적으로 있을 수 있는 표제, 저자의 필드를 지정하는 등의 제한탐색이 없다는 점이다. 상용데이터베이스에서는 필드를 지정하는 것으로 검색결과를 좁혀가거나 세밀한 탐색이 가능하다. 이와 유사한 기능으로 검색엔진 중에는 html의 표제 태그와 URL 사이트 등에서 제한 기능이 있는데 세밀하게 사용되는 기능이라고 할 수 없다.
4. 검색결과의 표시
검색엔진에는 수록정보의 내용과 형식이 다양하다는 것, 자연어(free word)로서만 탐색을 할 수 밖에 없다는 점에서, 적합성을 판단하는데 있어서도, 검색된 결과의 표시에도 각자 스스로 노력으로 얻어지는 경우가 많다.
그 하나로 적합도를 평점화하는 기능이 있다. 이러한 기능은 상용데이터베이스인 DIALOG에서 일부 사용되어지고 있는 예외는 볼 수 있지만 모든 종류의 정보를 수록하고 있는 검색엔진에는 검색결과를 판단하는 시간을 줄여나가는 기능으로서 많은 엔진에서 채용되고 있다.
평점을 부여 하는것은 키워드의 출현빈도와 문서 전체에 대한 키워드의 수, 키워드가 문서 중에 어디에 있는가 등에 가중치를 주어 그 데이터를 통계적으로 처리하여 산출하고 있다고 알려져 있다.
또한 표시내용에는 검색문서의 크기도 기재되어 있을 수 있다. 평점과 문서 크기의 표시는 검색결과 중 적합도가 높은 것만을 본다던지 크기를 참조하여 필요한 자료를 선택하는데 이용할 수 있다. 이러한 기능은 상용데이터베이스에도 유용한 것만 아니라 정보내용도 형식이 각각이고 자연어 탐색만 할 수 있는 인터넷에서는 적극적으로 활용하여야할 서비스이다.
참고문헌
김종애(2009), 학술정보이용자의 서지데이터베이스 검색과정의 사고발화, 한국비블리아학회
김현희 외 1명(1999), 인터넷 데이터베이스와 온라인 데이터베이스의 검색시스템 검색효율 비교, 명지대학교문헌정보학회
송광택 외 1명(2000), 셀기반 시그니쳐 트리 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 구조, 한국정보과학회
윤구호(1981), 정보검색효율에 관한 연구, 한국도서관·정보학회
정기태 외 1명(2004), 디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구, 한국정보관리학회
홍상균(2007), DNA 시퀀스 검색을 위한 효율적인 인덱스 기법, 한림대학교
색인파일은 탐색의 정확률을 결정하는 중요한 부분인데 로봇형 엔진에는 페이지 全文으로부터 작성되는 경우 및 페이지의 맨 앞에서 문자수를 한정해서 작성되는 경우 등이 있다.
상용데이터베이스의 색인은 키워드의 절단 방식이라는 점에서 데이터베이스 마다 차이가 있는데 원칙으로 명사의 단어 단위에서 절단한다. 색인은 레코드 가운데의 단어 마다에 그 단어의 출현빈도수, 그 단어가 레코드 중 몇 번째에 있는가의 위치정보 등을 기록하여 인버티드파일(치환파일)로 작성된다. 인버티드파일은 타이틀, 저자명 등 필드로 구성되어져 있다. 상용데이터베이스에서 탐색은 입력된 키워드와 인버티드필드 중의 단어와 대조되는 형태로 행하여진다.
한편 검색엔진도 똑같이 색인파일이 만들어진다. 그러나 색인 방법에서는 반드시 명사의 단어 단위에서 만들어진다고만 할 수는 없다. 특히, 검색엔진에서는 문장을 품사단위에서 분할하여 형태소해석의 기술과 문장을 문자단위에서 분할하여 1문자, 2문자단위의 색인파일을 작성하는 등 자연언어처리의 연구성과를 채택한 것이 많으며 기존 상용데이터베이스에서 사용하지 않는 색인파일을 만들고 있는 경우가 있다. 그 결과, 예로는 [아름답다]라는 형용사와 [아름답게된다]라는 동사에서의 탐색과 [최고의 문명]은 [최고][의][문명]과 같이 색인되고 동시에 탐색하면 입력문자 [최고의 문명]도 입력문자처리 프로그램에서 [최고][의][문명]이라고 한번 분해된 다음 색인파일과의 대조를 하게 된다.
형용사와 부사, 동사 등에서 탐색이 보다 정확한 검색결과를 갖고 올 것인지는 좀 더 검증이 되어야 하겠지만 적어도 기존의 상용데이터베이스하고는 전혀 다른 관점에서 탐색이 가능하게 되어 있다는 것을 이해하는 것이 필요하다.
3. 명령어체계
인터넷 검색엔진의 명령어체계는 대체로 상용데이터베이스와 같다. 대부분의 검색엔진에는 AND, OR, NOT 등의 블리언 연산과 인접연산이 가능하다. 검색엔진에서는 상용데이터베이스에서 일반적으로 있을 수 있는 표제, 저자의 필드를 지정하는 등의 제한탐색이 없다는 점이다. 상용데이터베이스에서는 필드를 지정하는 것으로 검색결과를 좁혀가거나 세밀한 탐색이 가능하다. 이와 유사한 기능으로 검색엔진 중에는 html의 표제 태그와 URL 사이트 등에서 제한 기능이 있는데 세밀하게 사용되는 기능이라고 할 수 없다.
4. 검색결과의 표시
검색엔진에는 수록정보의 내용과 형식이 다양하다는 것, 자연어(free word)로서만 탐색을 할 수 밖에 없다는 점에서, 적합성을 판단하는데 있어서도, 검색된 결과의 표시에도 각자 스스로 노력으로 얻어지는 경우가 많다.
그 하나로 적합도를 평점화하는 기능이 있다. 이러한 기능은 상용데이터베이스인 DIALOG에서 일부 사용되어지고 있는 예외는 볼 수 있지만 모든 종류의 정보를 수록하고 있는 검색엔진에는 검색결과를 판단하는 시간을 줄여나가는 기능으로서 많은 엔진에서 채용되고 있다.
평점을 부여 하는것은 키워드의 출현빈도와 문서 전체에 대한 키워드의 수, 키워드가 문서 중에 어디에 있는가 등에 가중치를 주어 그 데이터를 통계적으로 처리하여 산출하고 있다고 알려져 있다.
또한 표시내용에는 검색문서의 크기도 기재되어 있을 수 있다. 평점과 문서 크기의 표시는 검색결과 중 적합도가 높은 것만을 본다던지 크기를 참조하여 필요한 자료를 선택하는데 이용할 수 있다. 이러한 기능은 상용데이터베이스에도 유용한 것만 아니라 정보내용도 형식이 각각이고 자연어 탐색만 할 수 있는 인터넷에서는 적극적으로 활용하여야할 서비스이다.
참고문헌
김종애(2009), 학술정보이용자의 서지데이터베이스 검색과정의 사고발화, 한국비블리아학회
김현희 외 1명(1999), 인터넷 데이터베이스와 온라인 데이터베이스의 검색시스템 검색효율 비교, 명지대학교문헌정보학회
송광택 외 1명(2000), 셀기반 시그니쳐 트리 : 고차원 데이터의 유사성 검색을 위한 효율적인 색인 구조, 한국정보과학회
윤구호(1981), 정보검색효율에 관한 연구, 한국도서관·정보학회
정기태 외 1명(2004), 디지털도서관 구축과정에서 TREC 텍스트 문서의 시각적 표현에 관한 연구, 한국정보관리학회
홍상균(2007), DNA 시퀀스 검색을 위한 효율적인 인덱스 기법, 한림대학교
키워드
추천자료
인터넷정보자원정리
인터넷뱅킹체험기정보
[문헌정보학]검색엔진 비교분석
인터넷 웹 이용자의 검색엔진 선택여부 및 성향에 관한 분석
[인터넷검색엔진][인터넷검색엔진 사례]인터넷검색엔진의 개념, 인터넷검색엔진의 일반적 특...
[인터넷검색엔진][검색엔진][네이버][다음][포털사이트]인터넷검색엔진의 의미, 인터넷검색엔...
[인터넷검색엔진]인터넷검색엔진의 개념과 특성, 인터넷검색엔진의 분류, 인터넷검색엔진의 ...
[유망직종][유망직업]미래유망직종 항공기정비원과 정보검색사, 미래유망직종 조리사와 파티...
[단체급식관리]식품구매 관련 정보검색 사이트들이 제공하는 식품의 품질관리 측면의 정보
(단체급식관리B형)식품구매 관련 정보검색 사이트 4-5 곳을 검색하여 그곳에서 제공하고 있는...
[문헌 정보검색]도서관의 조직과 업무
[검색엔진]인터넷 검색엔진(포털사이트) 야후, 구글, 인터넷 검색엔진(포털사이트) 다음, 네...
국제경영학4공통) 2016년 한국의 인터넷 검색시장에서 구글이 크게 성장한 이유를 설명0K
2017년 1학기 인터넷과정보사회 중간시험과제물 공통(웹 브라우저 점유율, AR 및 VR)
소개글