自動語音識別

定義

自動語音識別(Automatic Speech Recognition 簡稱“ASR“)技術的目標是讓計算機能夠“聽寫”出不同人所說出的連續語音，也就是俗稱的“語音聽寫機”，是實現“聲音”到“文字”轉換的技術。自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。

語音識別是研究如何採用數位訊號處理技術自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。它是語音信號處理學科的一個分支。

性能因素

語音識別系統的性能大致取決於以下4類因素：1. 識別辭彙表的大小和語音的複雜性；2. 語音信號的質量；3. 單個說話人還是多說話人；4. 硬體。

學科領域

信號處理、物理學（聲學）、模式匹配、通信及信息理論、語言語音學、生理學、計算機科學（研究軟硬體算法以便更有效地實現用語識別系統中的各種方法）、心理學等。

分類

自動語音識別通常有以下幾種分類方法：

（1）按系統的用戶情況分：特定人和非特定人識別系統；

（2）按系統辭彙量分：小辭彙量、中辭彙量和大辭彙量系統；

（3）按語音的輸入方式分：孤立詞、連線詞、連續語音系統等；

（4）按輸入語音的發音方式分：朗讀式、口語（自然發音）式；

（5）按輸入語音的方言背景情況分：國語、方言背景國語、方言語音識別系統；

（6）按輸入語音的情感狀態分；中性語音、情感語音識別系統。

套用說明

語音識別技術適用於家用電器和電子設備，如電視、計算機、汽車、音響、冷氣等的聲控遙控器，電話、手機或PDA上的聲控人名撥號、數字錄音機的聲控語音檢索標籤、兒童玩具的聲控等；也可用於個人、呼叫中心，以及電信級套用的信息查詢與服務等領域。

（1）帶語音信箱的接線員

“關鍵字檢出器”技術是一種自動語音識別（ASR）技術。它套用於一些具有特定要求的場合，由於速度、高檢出率或其他特定的要求，人們並不需要系統識別出整個句子，更不需要理解整個句子，而只關注那些包含特定詞（稱為“關鍵字”）的句子。比如，對一些特殊人名、地名和詞語進行電話監聽，又比如通過人名進行自動分機接駁服務，等等。

（2）口語學習系統

口語學習系統利用可視化的朗讀評分等人機互動的方式，通過視覺、聽覺等綜合手段，反覆提示和幫助用戶接近標準發音。該系統廣泛套用於多種電腦設備和網路環境：

n 可集成到語言學習軟體和VCD中；

n 可與復讀機/mp3配套使用，用戶可直接對著麥克風朗讀，也可把錄音與標準模型對照，提供了更方便和全面的口語訓練方案；

自動語音識別

基本介紹

定義

性能因素

學科領域

分類

套用說明

基本原理

相關詞條

熱門詞條