목차
* [정보시스템 개발사례] 전자문서 자동요약 시스템
Ⅰ. 관련 연구
Ⅱ. 시스템 구현
1. 시스템 개요
2. 형태소 분석기
3. 문장 랭킹 / 추출기
Ⅲ. 시스템 평가
Ⅰ. 관련 연구
Ⅱ. 시스템 구현
1. 시스템 개요
2. 형태소 분석기
3. 문장 랭킹 / 추출기
Ⅲ. 시스템 평가
본문내용
의하여 구분되어진 단락이나 문장의 길이에 의존하는 방법으로 태깅 기능에 의하여 단락의 특성별로 구분되어진 문장에 문장의 길이 및 위치에 따라 각각의 중요도를 계산한다. 이때 앞서 서술한 바와 같이 지나치게 문장이 짧거나 긴 문장은 요약문에서 제외시키며, 처음과 마지 막 단락은 그 중요도를 낮게 평가한다.
(3) 검색기반 : 주제어 특성 및 상용구사전과 비교하여 문장의 중요도를 계산한다. 예를 들면 "요약하면", "결론은", "다시 말하면" 등과 같은 상용구가 포함된 문장은 중요도를 높게 평가한다.
문장추출 기능은 문장 랭킹기에 의하여 부여된 점수와 문장추출 휴리스틱을 이용하여 요약문을 추출하는 기능을 수행한다. 문장추출 휴리스틱에 있어서 하나의 문장이 요약문에 포함될 확률은 우선 상용구사전과 비교하여 검색된 문장을 우선하고, 분류기반에 의한 문장추출과 단어빈도수 위주의 복합적인 문장추출이 동시에 수행된다. 휴리스틱에 적용된 문장은 사용자 요구에 따라 적절한 요약문을 제시한다. 문장추출은 각 문장이 요약문에 포함될 확률을 계산하여 이루어지는데, 본 시스템에서는 제목과 문장구조의 위치정보에 가중치를 부여하였다. 예를 들어 제목의 단어가 포함된 문장과 문서의 마지막 단락 앞의 문장은 요약문에 포함될 확률을 높여서 계산하였다. 문장추출 기능은 앞서 수행된 문장랭킹 기능의 정보에 의존하여 사실상 그 우선순위를 결정하는 과정이다. 본 시스템에서는 상용구사전 검색에 의한 문장, 분류기반에 의하여 추출된 문장, 단어의 빈도수에 의한 문장의 순으로 그 중요도가 계산되며 사용자 요구에 의하여 요약문의 형태로 출력된다.
III. 시스템 평가
전자문서 자동요약 시스템은 웹을 기반으로 방대한 양의 웹 문서를 사
용자가 확인하기 편리하도록 요약하여 전달하는 웹 문서 요약 시스템을
만들고자 노력하였다. 사용자 입장에서는 즘 더 사람이 작성한 요약문과
비슷한 수준의 요약문을 요구하고 있지만, 자동요약의 난이성 때문에 정
확하고 완벽한 자동요약 시스템을 구현하는 데는 한계가 있다. 먼저 현
존하는 웹 환경에서 쉽게 사용자 요구에 따라 요약이 가능하다. 또한 확
장성과 이식성을 고려하여 호환성 중심의 Java언어로서 시스템을 구현
함으로써 그 효과를 최대화함은 물론 사용자 중심의 간단한 로직을 사
용하였다. 이로 인하여 웹 환경에서 실시간으로 요약하고자 하는 점 페
이지를 사용자 요구에 따라 요약하여 이를 전자메일 전송 또는 출력이
가능하다. 또한 사용자 재정에 도착한 문서를 저장/관리함에 있어서 우
선순위와 내용별로 분류가 가능하다. 그리고 대용량의 텍스트문서를 기
존의 인터넷/인트라넷 환경뿐 아니라 OLTP(On-Line Transaction
Processing)환경에서 검색, 요약, 저장, 분류 등의 작업을 기존의 정보시
스템과 연계하여 대량관리가 가능함으로써 추가적인 비용의 부담 없이
업무의 효율성과 비용절감 효과를 창출할 수 있다. 그러므로 전자문서
자동요약 시스템은 다량의 텍스트 검색업무를 수행하는 사용자와 다량
의 메일을 취급하는 사용자에게 적합하다.
(3) 검색기반 : 주제어 특성 및 상용구사전과 비교하여 문장의 중요도를 계산한다. 예를 들면 "요약하면", "결론은", "다시 말하면" 등과 같은 상용구가 포함된 문장은 중요도를 높게 평가한다.
문장추출 기능은 문장 랭킹기에 의하여 부여된 점수와 문장추출 휴리스틱을 이용하여 요약문을 추출하는 기능을 수행한다. 문장추출 휴리스틱에 있어서 하나의 문장이 요약문에 포함될 확률은 우선 상용구사전과 비교하여 검색된 문장을 우선하고, 분류기반에 의한 문장추출과 단어빈도수 위주의 복합적인 문장추출이 동시에 수행된다. 휴리스틱에 적용된 문장은 사용자 요구에 따라 적절한 요약문을 제시한다. 문장추출은 각 문장이 요약문에 포함될 확률을 계산하여 이루어지는데, 본 시스템에서는 제목과 문장구조의 위치정보에 가중치를 부여하였다. 예를 들어 제목의 단어가 포함된 문장과 문서의 마지막 단락 앞의 문장은 요약문에 포함될 확률을 높여서 계산하였다. 문장추출 기능은 앞서 수행된 문장랭킹 기능의 정보에 의존하여 사실상 그 우선순위를 결정하는 과정이다. 본 시스템에서는 상용구사전 검색에 의한 문장, 분류기반에 의하여 추출된 문장, 단어의 빈도수에 의한 문장의 순으로 그 중요도가 계산되며 사용자 요구에 의하여 요약문의 형태로 출력된다.
III. 시스템 평가
전자문서 자동요약 시스템은 웹을 기반으로 방대한 양의 웹 문서를 사
용자가 확인하기 편리하도록 요약하여 전달하는 웹 문서 요약 시스템을
만들고자 노력하였다. 사용자 입장에서는 즘 더 사람이 작성한 요약문과
비슷한 수준의 요약문을 요구하고 있지만, 자동요약의 난이성 때문에 정
확하고 완벽한 자동요약 시스템을 구현하는 데는 한계가 있다. 먼저 현
존하는 웹 환경에서 쉽게 사용자 요구에 따라 요약이 가능하다. 또한 확
장성과 이식성을 고려하여 호환성 중심의 Java언어로서 시스템을 구현
함으로써 그 효과를 최대화함은 물론 사용자 중심의 간단한 로직을 사
용하였다. 이로 인하여 웹 환경에서 실시간으로 요약하고자 하는 점 페
이지를 사용자 요구에 따라 요약하여 이를 전자메일 전송 또는 출력이
가능하다. 또한 사용자 재정에 도착한 문서를 저장/관리함에 있어서 우
선순위와 내용별로 분류가 가능하다. 그리고 대용량의 텍스트문서를 기
존의 인터넷/인트라넷 환경뿐 아니라 OLTP(On-Line Transaction
Processing)환경에서 검색, 요약, 저장, 분류 등의 작업을 기존의 정보시
스템과 연계하여 대량관리가 가능함으로써 추가적인 비용의 부담 없이
업무의 효율성과 비용절감 효과를 창출할 수 있다. 그러므로 전자문서
자동요약 시스템은 다량의 텍스트 검색업무를 수행하는 사용자와 다량
의 메일을 취급하는 사용자에게 적합하다.