自動語音識別

自動語音識別

自動語音識別技術(Automatic Speech Recognition)是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數位訊號處理理論、資訊理論、計算機科學等眾多學科緊密相連。由於語音信號的多樣性和複雜性,語音識別系統只能在一定的限制條件下獲得滿意的性能,或者說只能套用於某些特定的場合。

基本介紹

  • 中文名:自動語音識別
  • 外文名:Automatic Speech Recognition
  • 簡稱:ASR
  • 俗稱:語音聽寫機
  • 別稱:語音識別或計算機語音識別
定義,性能因素,學科領域,分類,套用說明,基本原理,

定義

自動語音識別(Automatic Speech Recognition 簡稱“ASR“)技術的目標是讓計算機能夠“聽寫”出不同人所說出的連續語音,也就是俗稱的“語音聽寫機”,是實現“聲音”到“文字”轉換的技術。 自動語音識別也稱為語音識別(Speech Recognition)或計算機語音識別(Computer Speech Recognition)。
語音識別是研究如何採用數位訊號處理技術自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。它是語音信號處理學科的一個分支。

性能因素

語音識別系統的性能大致取決於以下4類因素:1. 識別辭彙表的大小和語音的複雜性;2. 語音信號的質量;3. 單個說話人還是多說話人;4. 硬體。

學科領域

信號處理、物理學(聲學)、模式匹配、通信及信息理論、語言語音學、生理學、計算機科學(研究軟硬體算法以便更有效地實現用語識別系統中的各種方法)、心理學等。

分類

自動語音識別通常有以下幾種分類方法:
(1)按系統的用戶情況分:特定人和非特定人識別系統;
(2)按系統辭彙量分:小辭彙量、中辭彙量和大辭彙量系統;
(3)按語音的輸入方式分:孤立詞、連線詞、連續語音系統等;
(4)按輸入語音的發音方式分:朗讀式、口語(自然發音)式;
(5)按輸入語音的方言背景情況分:國語、方言背景國語、方言語音識別系統;
(6)按輸入語音的情感狀態分;中性語音、情感語音識別系統。

套用說明

語音識別技術適用於家用電器和電子設備,如電視、計算機、汽車、音響、冷氣等的聲控遙控器,電話、手機或PDA上的聲控人名撥號、數字錄音機的聲控語音檢索標籤、兒童玩具的聲控等;也可用於個人、呼叫中心,以及電信級套用的信息查詢與服務等領域。
(1)帶語音信箱的接線員
“關鍵字檢出器”技術是一種自動語音識別(ASR)技術。它套用於一些具有特定要求的場合,由於速度、高檢出率或其他特定的要求,人們並不需要系統識別出整個句子,更不需要理解整個句子,而只關注那些包含特定詞(稱為“關鍵字”)的句子。比如,對一些特殊人名、地名和詞語進行電話監聽,又比如通過人名進行自動分機接駁服務,等等。
(2)口語學習系統
口語學習系統利用可視化的朗讀評分等人機互動的方式,通過視覺、聽覺等綜合手段,反覆提示和幫助用戶接近標準發音。該系統廣泛套用於多種電腦設備和網路環境:
n 可集成到語言學習軟體和VCD中;
n 可與復讀機/mp3配套使用,用戶可直接對著麥克風朗讀,也可把錄音與標準模型對照,提供了更方便和全面的口語訓練方案;
n 支持網路遠程服務,系統可實時處理眾多用戶通過網路傳來的語音,用戶可隨時上網選擇自己所需的內容進行個性化的學習和訓練;
適合教育機構、商業企業、政府部門方便、快捷、可靠、客觀地考核各類人才的口語能力和會話水平,套用於優秀人才聘用、工作能力考察、設定入學和畢業標準、評估教學成效等領域。
(3)聲控撥號器
聲控撥號器(Voice Dialer)是基於Pocket PC的漢語聲控撥號器。聲控撥號器套用了與說話人無關(即非特定人)的語音識別技術,用戶無需線上訓練,也無需預先錄製聲控標籤,就能通過語音方便、快捷撥號,好學易用。
聲控撥號器具有如下特點:
●非特定人,無需訓練;
●識別率高,識別速度快;
●與聯繫人信息保持同步;
●支持漢字/拼音形式的聯繫人姓名;
●聯繫人姓名讀音可定製;
●可瀏覽撥號器的姓名列表;
●模型小,參數可定製。

基本原理

訓練(Training):預先分析出語音特徵參數,製作語音模板,並存放在語音參數庫中。
識別(Recognition):待識語音經過與訓練時相同的分析,得到語音參數。將它與庫中的參考模板一一比較,並採用判決的方法找出最接近語音特徵的模板,得出識別結果。
失真測度(Distortion Measures):在進行比較時要有個標準,這就是計量語音特徵參數矢量之間的“失真測度”。
主要識別框架:基於模式匹配的動態時間規整法(DTW)和基於統計模型的隱馬爾可夫模型法(HMM)。

相關詞條

熱門詞條

聯絡我們