語音合成(TTS技術):概述,專業技術,轉換系統,TTS結構,語言處理,韻律處理,

語音合成是通過機械的、電子的方法產生人造語音的技術。TTS技術（又稱文語轉換技術）隸屬於語音合成，它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的漢語口語輸出的技術。

採用世界領先的語音合成技術，研發出來的“語音合成助手”軟體可以完美的完成語音合成工作。

基本介紹

中文名：語音合成
外文名：speech synthesis
基礎知識：數位訊號處理，語言學知識
技術：TTS技術
套用：計算機
定義：通過機械產生人造語音的技術

概述,專業技術,轉換系統,TTS結構,語言處理,韻律處理,聲學處理,歷史,參數合成,波形拼接,合成方法,系統概念,方法比較,共振峰,級聯模型,並聯模型,混合模型,合成技術,LPC,PSOLA,LMA,中文語音,

概述

語音合成是利用電子計算機和一些專門裝置模擬人，製造語音的技術。

專業技術

語音合成和語音識別技術是實現人機語音通信，建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似於人一樣的說話能力，是當今時代信息產業的重要競爭市場。和語音識別相比，語音合成的技術相對說來要成熟一些，並已開始向產業化方向成功邁進，大規模套用指日可待。

語音合成，又稱文語轉換（Text to Speech）技術，能將任意文字信息實時轉化為標準流暢的語音朗讀出來，相當於給機器裝上了人工嘴巴。它涉及聲學、語言學、數位訊號處理、計算機科學等多個學科技術，是中文信息處理領域的一項前沿技術，解決的主要問題就是如何將文字信息轉化為可聽的聲音信息，也即讓機器像人一樣開口說話。我們所說的“讓機器像人一樣開口說話”與傳統的聲音回放設備（系統）有著本質的區別。傳統的聲音回放設備（系統），如磁帶錄音機，是通過預先錄製聲音然後回放來實現“讓機器說話”的。這種方式無論是在內容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制。而通過計算機語音合成則可以在任何時候將任意文本轉換成具有高自然度的語音，從而真正實現讓機器“像人一樣開口說話”。

轉換系統

文語轉換系統實際上可以看作是一個人工智慧型系統。為了合成出高質量的語言，除了依賴於各種規則，包括語義學規則、辭彙規則、語音學規則外，還必須對文字的內容有很好的理解，這也涉及到自然語言理解的問題。下圖顯示了一個完整的文語轉換系統示意圖。文語轉換過程是先將文字序列轉換成音韻序列，再由系統根據音韻序列生成語音波形。其中第一步涉及語言學處理，例如分詞、字音轉換等，以及一整套有效的韻律控制規則；第二步需要先進的語音合成技術，能按要求實時合成出高質量的語音流。因此一般說來，文語轉換系統都需要一套複雜的文字序列到音素序列的轉換程式，也就是說，文語轉換系統不僅要套用數位訊號處理技術，而且必須有大量的語言學知識的支持。

TTS結構

語言處理

在文語轉換系統中起著重要的作用，主要模擬人對自然語言的理解過程——文本規整、詞的切分、語法分析和語義分析，使計算機對輸入的文本能完全理解，並給出後兩部分所需要的各種發音提示。

韻律處理

為合成語音規劃出音段特徵，如音高、音長和音強等，使合成語音能正確表達語意，聽起來更加自然。

聲學處理

根據前兩部分處理結果的要求輸出語音，即合成語音。

歷史

語音合成技術的研究已有兩百多年的歷史，但真正具有實用意義的近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的，主要是讓計算機能夠產生高清晰度、高自然度的連續語音。在語音合成技術的發展過程中，早期的研究主要是採用參數合成方法，後來隨著計算機技術的發展又出現了波形拼接的合成方法。

參數合成

在語音合成技術的發展中，早期的研究主要是採用參數合成方法。值得提及的是Holmes的並聯共振峰合成器（1973）和Klatt的串/並聯共振峰合成器（1980），只要精心調整參數，這兩個合成器都能合成出非常自然的語音。最具代表性的文語轉換系統當數美國DEC公司的DECtalk（1987）。但是經過多年的研究與實踐表明，由於準確提取共振峰參數比較困難，雖然利用共振峰合成器可以得到許多逼真的合成語音，但是整體合成語音的音質難以達到文語轉換系統的實用要求。

波形拼接

自八十年代末期至今，語言合成技術又有了新的進展，特別是基音同步疊加（PSOLA）方法的提出（1990），使基於時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初，基於PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研製成功。這些系統的自然度比以前基於LPC方法或共振峰合成器的文語合成系統的自然度要高，並且基於PSOLA方法的合成器結構簡單易於實時實現，有很大的商用前景。

國內的漢語語音合成研究起步較晚些，但從八十年代初就基本上與國際上研究同步發展。大致也經歷了共振峰合成、LPC合成至套用PSOLA技術的過程。在國家863計畫，國家自然科學基金委，國家攻關計畫，中國科學院有關項目等支持下，聯想佳音（1995）；清華大學的TH_SPEECH (1993)；中國科技大學的KDTALK（1995）等系統。這些系統基本上都是採用基於PSOLA方法的時域波形拼接技術，其合成漢語國語的可懂度、清晰度達到了很高的水平。然而同國外其它語種的文語轉換系統一樣，這些系統合成的句子及篇章語音機器味較濃，其自然度還不能達到用戶可廣泛接受的程度，從而制約了這項技術的大規模進入市場。

合成方法

系統概念

一種語音合成系統，其包括：分割單元，其被配置成將對應於目標語音的音位串分割為多個節段，來產生第一節段序列；

選擇單元，其被配置成基於第一節段序列通過組合多個語音單元產生對應於第一節段序列的多個第一語音單元串，並從所述多個第一語音單元串中選擇一個語音單元串；和連線單元，其被配置成連線包含在所選擇語音單元串中的多個語音單元，以產生合成語音，選擇單元包括檢索單元，其被配置成反覆實施第一處理和第二處理，該第一處理基於對應於第二節段序列的最多W個（W為預定值）第二語音單元串產生對應於第三節段序列的多個第三語音單元串，所述第二節段序列作為第一節段序列中的部分序列，所述第三節段序列作為通過將節段添加給第二節段序列而獲得的部分序列，第二處理從所述多個第三語音單元串中選擇最多W個第三語音單元串，第一計算單元，其被配置成計算所述多個第三語音單元串中每個的總成本，第二計算單元，其被配置成基於涉及語音單元數據獲取速度的限制來為所述多個第三語音單元串中的每個計算對應於總成本的懲罰係數，其中懲罰係數依賴於接近所述限制的程度，和第三計算單元，其被配置成通過使用懲罰係數修正總成本來計算所述多個第三語音單元串中每個的估計值，其中檢索單元基於所述多個第三語音單元串中每個的估計值從所述多個第三語音單元串中選擇最多W個第三語音單元串。

方法比較

“未來的十年是語音技術的時代”。隨著語音技術研究的突破，其對計算機發展和社會生活的重要性日益凸現出來。語音合成技術是語音技術中十分實用的一項重要技術，它能解決人民大眾的實際需求，能夠深入到社會的各行各業中去。

語音合成技術經歷了一個逐步發展的過程，從參數合成到拼接合成，再到兩者的逐步結合，其不斷發展的動力是人們認知水平和需求的提高。它們各有優缺點，人們在套用過程中往往將多種技術有機地結合在一起，或將一種技術的優點運用到另一種技術上，以克服另一種技術的不足。

共振峰

語音合成的理論基礎是語音生成的數學模型。該模型語音生成過程是在激勵信號的激勵下，聲波經諧振腔（聲道），由嘴或鼻輻射聲波。因此，聲道參數、聲道諧振特性一直是研究的重點。習慣上，把聲道傳輸頻率回響上的極點稱之為共振峰，而語音的共振峰頻率（極點頻率）的分布特性決定著該語音的音色。

音色各異的語音具有不同的共振峰模式，因此，以每個共振峰頻率及其頻寬作為參數，可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性（頻率回響），對激勵源發出的信號進行調製，再經過輻射模型就可以得到合成語音。這就是共振峰合成技術的基本原理。基於共振峰的理論有以下三種實用模型。

級聯模型

在該模型中，聲道被認為是一組串聯的二階諧振器。該模型主要用於絕大部分元音的合成。

並聯模型

許多研究者認為，對於鼻化元音等非一般元音以及大部分輔音，上述級聯型模型不能很好地加以描述和模擬，因此，構築和產生了並聯型共振峰模型。

混合模型

在級聯型共振峰合成模型中，共振峰濾波器首尾相接；而在並聯型模型中，輸入信號先分別通過幅度調節再加到每一個共振峰濾波器上，然後將各路的輸出疊加起來。將兩者比較，對於合成聲源位於聲道末端的語音（大多數的元音），級聯型合乎語音產生的聲學理論，並且無需為每一個濾波器分設幅度調節；而對於合成聲源位於聲道中間的語音（大多數清擦音和塞音），並聯型則比較合適，但是其幅度調節很複雜。基於此種考慮，人們將兩者結合在一起，提出了混和型共振峰模型。

共振峰模型是基於對聲道的一種比較準確的模擬，因而可以合成出自然度比較高的語音，另外由於共振峰參數有著明確的物理意義，直接對應於聲道參數，因此，可以容易利用共振峰描述自然語流中的各種現象，並且總結聲學規則，最終用於共振峰合成系統。

但是，人們同時也發現該技術有明顯的弱點。首先由於它是建立在對聲道的模擬上，因此，對於聲道模型的不精確勢必會影響其合成質量。另外，實際工作表明，共振峰模型雖然描述了語音中最基本最主要的部分，但並不能表征影響語音自然度的其他許多細微的語音成分，從而影響了合成語音的自然度。另外，共振峰合成器控制十分複雜，對於一個好的合成器來說，其控制參數往往達到幾十個，實現起來十分困難。

基於這些原因，研究者繼續尋求和發現其他新的合成技術。人們從波形的直接錄製和播放得到啟發，提出了基於波形拼接的合成技術，LPC合成技術和PSOLA合成技術是其中的代表。與共振峰合成技術不同，波形拼接合成是基於對錄製的合成基元的波形進行拼接，而不是基於對發聲過程的模擬。

合成技術

LPC

波形拼接技術的發展與語音的編、解碼技術的發展密不可分，其中LPC技術（線性預測編碼技術）的發展對波形拼接技術產生了巨大的影響。LPC合成技術本質上是一種時間波形的編碼技術，目的是為了降低時間域信號的傳輸速率。

LPC合成技術的優點是簡單直觀。其合成過程實質上只是一種簡單的解碼和拼接過程。另外，由於波形拼接技術的合成基元是語音的波形數據，保存了語音的全部信息，因而對於單個合成基元來說能夠獲得很高的自然度。

但是，由於自然語流中的語音和孤立狀況下的語音有著極大的區別，如果只是簡單地把各個孤立的語音生硬地拼接在一起，其整個語流的質量勢必是不太理想的。而LPC技術從本質上來說只是一種錄音+重放，對於合成整個連續語流LPC合成技術的效果是不理想的。因此，LPC合成技術必須和其他技術相結合，才能明顯改善LPC合成的質量。

PSOLA

20世紀80年代末提出的PSOLA合成技術（基音同步疊加技術）給波形拼接合成技術注入了新的活力。PSOLA技術著眼於對語音信號逾時段特徵的控制，如基頻、時長、音強等的控制。而這些參數對於語音的韻律控制以及修改是至關重要的，因此，PSOLA技術比LPC技術具有可修改性更強的優點，可以合成出高自然度的語音。

PSOLA技術的主要特點是：在拼接語音波形片斷之前，首先根據上下文的要求，用PSOLA算法對拼接單元的韻律特徵進行調整，使合成波形既保持了原始發音的主要音段特徵，又能使拼接單元的韻律特徵符合上下文的要求，從而獲得很高的清晰度和自然度。

PSOLA技術保持了傳統波形拼接技術的優點，簡單直觀，運算量小，而且還能方便地控制語音信號的韻律參數，具有合成自然連續語流的條件，得到了廣泛的套用。

但是，PSOLA技術也有其缺點。首先，PSOLA技術是一種基音同步的語音分析/合成技術，首先需要準確的基音周期以及對其起始點的判定。基音周期或其起始點的判定誤差將會影響PSOLA技術的效果。其次，PSOLA技術是一種簡單的波形映射拼接合成，這種拼接是否能夠保持平穩過渡以及它對頻域參數有什麼影響等並沒有得到解決，因此，在合成時會產生不理想的結果。

LMA

隨著人們對語音合成的自然度和音質的要求越來越高，PSOLA算法表現出對韻律參數調整能力較弱和難以處理協同發音的缺陷，因此，人們又提出了一種基於LMA聲道模型的語音合成方法。這種方法具有傳統的參數合成可以靈活調節韻律參數的優點，同時又具有比PSOLA算法更高的合成音質。

這兩種技術各有所長，共振峰技術比較成熟，有大量的研究成果可以利用，而PSOLA技術則是比較新的技術，具有良好的發展前景。過去這兩種技術基本上是互相獨立發展的，

中文語音

作為一種有調語言，漢語韻律特徵非常複雜。古漢語的平仄以及現代漢語拼音，對於同樣一個音節，出現在不同的環境下，其韻律參數都是各不相同的。用有限的存儲單元存儲基本漢語基本語音單元，進而從有限的存儲單元中合成出無限辭彙，組成連續漢語語句。必須在一定的韻律規則下對音庫單元的韻律參數進行調整，以得到符合當前語言環境的語音庫單元。語音合成器用來完成這種功能。

中文語音合成系統在DSP下實現時，除清晰度，能懂度和自然度外，還要求合成算法具有較低的運算複雜度，儘量小的語音庫以減少對有限存儲空間的占用程度。

語音合成