목차
<음성 합성>
(1) 음성 합성이란?
(2) 문서-음성 변환(TTS ; Text-to-Speech)
(3) 음성 변환
<표차례>
<그림차례>
(1) 음성 합성이란?
(2) 문서-음성 변환(TTS ; Text-to-Speech)
(3) 음성 변환
<표차례>
<그림차례>
본문내용
성 변환을 위해 여러 음향학적 요소를 포함하는 스펙트럼 포락(spectrum envelope)의 변환과, 개인성 요소에 가장 큰 영향을 미치는 운율 요소인 피치 주기값만을 변환시킨다.
② 음성 변환 시스템의 구성
일반적인 음성 변환 시스템은 크게 분석부, 변환부, 합성부로 나뉘다.
분석부에서는 입력 음성을 매 분석 구간마다 분석하여 변환을 수행할 특징 파라미터를 추출한다. 추출되는 특징 파라미터는 변환부와 합성부에 종속되지만, 크게 스펙트럼 포락 변환을 위한 파리미터(스펙트럼 파라미터)와 운율요소 변환을 위한 파라미터로 나뉘어져 분석된다.
일반적으로 성도특성을 반영하는 스펙트럼 포락정보의 변환을 위해 포만트 주파수나 켑스트럼 계수가 사용되며, 간단한 운율요소의 변환을 위해 피치 주기값을 추출하여 피치 변환을 수행한다.
변환부에서는 분석부에서 넘어오는 스펙트럼 파라미터와 피치 주기가 각각의 학습된 변환 방법에 의해 목적화자의 특징 파라미터로 변환된다. 변환 방법의 학습에 있어서 고려되어야 할 사항은 화자의 음성공간을 표현하기 위한 화자 모델링의 방법과 그에 기반한 사상관계 학습이다.
일반적으로 화자의 모델링을 위해서 벡터 양자화 기반의 코드북이 주로 사용되어져 왔다. 이 방법에서 전체 음성공간은 코드북의 크기로 군집화되고 각 클래스의 대표값을 코드워드에 저장해 화자의 전체 음성공간을 표현하게 된다.
합성부는 변환부에서 변환된 파라미터들을 음성으로 재합성하는 일을 수행한다. 일반적으로 LPC 보코더 계열의 합성기를 이용하여 변환된 스펙트럼 파라미터와 피치 주기를 입력으로 변환 음성을 출력한다.
② 음성 변환 시스템의 구성
일반적인 음성 변환 시스템은 크게 분석부, 변환부, 합성부로 나뉘다.
분석부에서는 입력 음성을 매 분석 구간마다 분석하여 변환을 수행할 특징 파라미터를 추출한다. 추출되는 특징 파라미터는 변환부와 합성부에 종속되지만, 크게 스펙트럼 포락 변환을 위한 파리미터(스펙트럼 파라미터)와 운율요소 변환을 위한 파라미터로 나뉘어져 분석된다.
일반적으로 성도특성을 반영하는 스펙트럼 포락정보의 변환을 위해 포만트 주파수나 켑스트럼 계수가 사용되며, 간단한 운율요소의 변환을 위해 피치 주기값을 추출하여 피치 변환을 수행한다.
변환부에서는 분석부에서 넘어오는 스펙트럼 파라미터와 피치 주기가 각각의 학습된 변환 방법에 의해 목적화자의 특징 파라미터로 변환된다. 변환 방법의 학습에 있어서 고려되어야 할 사항은 화자의 음성공간을 표현하기 위한 화자 모델링의 방법과 그에 기반한 사상관계 학습이다.
일반적으로 화자의 모델링을 위해서 벡터 양자화 기반의 코드북이 주로 사용되어져 왔다. 이 방법에서 전체 음성공간은 코드북의 크기로 군집화되고 각 클래스의 대표값을 코드워드에 저장해 화자의 전체 음성공간을 표현하게 된다.
합성부는 변환부에서 변환된 파라미터들을 음성으로 재합성하는 일을 수행한다. 일반적으로 LPC 보코더 계열의 합성기를 이용하여 변환된 스펙트럼 파라미터와 피치 주기를 입력으로 변환 음성을 출력한다.
추천자료
DMA에 관하여
ip란 무엇인가~~~
이동통신의 기초
전화기의 종류 및 구성 그리고 송화기와 수화기의 원리 및 기능에 대한 이해
LG 전자의 디지털 TV(X-Canvas) 국내수요예측
최신 신기술 용어개념 및 해설
음운과정에 대하여
디지털방송과 아날로그방송의 비교 (2007년HDTV중심으로)
AD 컨버터
[2007년11월]VOIP gateway에 관한 기술요약보고서
VOIP (voice over internet protocol) 에 대하여
CISCO 2600 중소형 다기능 플랫폼[p3]700
경영정보시스템에서 사용자 접속 요구사항
멀티미디어 통신 기말시험 요약정리