口語自動評估技術:背景和需求,特點和優勢,歷史和現狀,技術路線,套用系統,

又稱語音評測技術，口語評測技術。通俗來說，口語自動評估技術就是利用計算機對口語進行自動化打分的一種技術手段。口語自動評估技術建立在計算機技術、模式識別技術以及智慧型信號處理技術等基礎之上，是提高教育領域現代化程度的重要措施之一。嚴格意義上來講，口語發音的自動評估和診斷是計算機輔助語言學習和測試領域中最重要的技術之一，它是根據語音信號的生理特徵（如發音準確度、聲調、重音、連讀、同化、失去爆破、語調、韻律等）和行為特徵（如辭彙、語法和句法等語言層次上的運用）對口語發音質量進行自動化的評估和診斷。口語發音自動評估和診斷技術以人的語音和語言特徵為基礎，以信號處理和模式識別等信息處理技術為手段，融合語音學、語言學和教育學等多學科的理論和知識，與傳統人工方法相比可以明顯提高評估測試的客觀性和公正性，同時極大降低人力和物力成本，使得大規模人群的口語能力評估成為可能，因此具有巨大的發展潛力和套用前景，近年來也得到了研究人員的廣泛關注。

基本介紹

中文名：口語自動評估技術
對象：計算機
基礎：模式識別技術
作用：提高教育領域現代化程度

背景和需求,特點和優勢,歷史和現狀,技術路線,套用系統,

背景和需求

作為人際交流的重要媒介，口語語言在實際生活中占有極其重要的地位。標準的語音是口語和聽力的基礎，它能夠增強日常交流的可靠性，提高交流的流暢度。隨著社會經濟的不斷發展和全球化趨勢的加劇，人們對語言學習的效率以及語言評估的客觀性、公正性和規模化測試提出了越來越高的要求。

傳統的語言教學是由老師在課堂上通過言傳身教和聽說讀寫等綜合訓練手段來全面培養學生的語言交際能力，而傳統的語言測試則依賴於評估者的聽辨能力，一般由一個或若干個評估者對被測者的口語水平做出評判。這種人工教學和評判的方法存在很多缺陷：

1）人工教學使教師和學生在教學時間和空間上受到很大限制，在師資力量、教學場地、經費支出等方面也存在諸多硬體上的差距和不平衡；

2）人工評測無法避免評估者自身的個體偏差，從而不能保證評分標準的統一，有時甚至無法準確反映被測者的真實水平；

3）對於大規模口語測試，則需要大量的人力、物力和財力支持，限制了經常性、規模性的評估測試；

4）人工評測往往只能給出被測者的某個單一的分數或等級，隨著測試規模的擴大，很難做出科學的統計分析和有效的反饋。

在此背景下，隨著科學技術的迅猛發展，計算機技術和人工智慧技術被廣泛套用於社會生產和生活的各個方面，計算機和網路的輔助作用也越來越明顯地體現出來，計算機輔助語言學習和測試技術為現代語言教學和測試提供了一個有效的解決方案。目前，語音識別技術在實驗室條件下已經基本成熟，將語音識別技術逐步實用化並擴展其套用領域已經成為語音識別領域研究的熱點問題，而語言學習是其實用化套用的主要熱點之一。

以中國目前的國情為例，面向語言學習和測試的套用主要有三個比較有代表性的領域，這三個領域都是基於大人群的大型考試，都需要藉助計算機輔助等技術手段來提高語言學習和測試評估的自動化和信息化水平。

國語水平測試。主要考察以中文為母語的測試者的國語水平，典型的套用是面向播音員、教師的國語水平測試，或面向一些語言要求程度比較高的行業的從業人員的國語水平測試。國語水平測試對於國家語言文字規範化政策的推進具有極大的促進作用。

少數民族漢語測試。由於我國是一個多民族國家，很多民族都有自己的語言，而在民族交流中，對於漢語的學習和測試有著迫切的需求。少數民族漢語測試能夠提高少數民族同胞的漢語學習和運用，促進少數民族地區的對外經濟交流，同時對民族融合和民族團結也具有非常重要的意義。

英語口語考試。對於中國的教育領域，從初等教育到中等教育，甚至到高等教育，英語都是一門必修課。無論是小學生、中學生，還是大學生、研究生，或者是出國留學人員，都面臨英語學習的問題。這充分體現了教育部門對外語學習的重視程度，同時也印證了當今社會對第二語言學習的迫切需求。目前，主要套用形式有中學生英語口語考試、大學生英語四六級考試，以及面向留學生的托福、雅思等測試。同時，國內第二語言學習也已經從英語逐漸拓展到其他諸多語種。

特點和優勢

針對傳統口語測試和評估的缺陷，並考慮到大人群和大規模考試的套用特點，口語自動測試和評估技術是以計算機技術和網路技術為基礎，實現對大人群考生的自動測試以及對大規模語音數據的評估打分任務，具體套用點包括：

1）面向大人群的自動化口語測試和數據回收。取代傳統的人與人面對面的考試模式，採用“人機對話”的測試方式，考生面對的不再是考官，而是計算機，通過人機接口技術全程引導測試者完成整個測試流程，並使用耳麥等設備，自動地批量採集和回收測試者的語音答題數據。

2）面向大規模數據的口語評估和診斷技術。對於在自動測試環節採集的考生數據，電腦程式將按照評分標準和要求，自動地完成口語評分、診斷和反饋報告生成等流程，並將測試結果發布給各級機構和人員。

與傳統口語測試和評估過程相比，自動口語測試和評估系統具有如下一些明顯的特點和優勢：

1）考試更容易組織和掌控。自動化口語測試不再需要監考老師的大規模調配，只需要考生按照規定流程按部就班地進行考試，監考老師或系統操作員可以通過網路對考生的測試進度進行監控，對出現的異常情況進行及時處理。

2）評分結果更加公平、公正。計算機在評分標準的基礎上，採取預定的評估算法，對所有考生一視同仁，在最大程度上避免了人為主觀因素的影響，並且不受時間和空間條件的限制。同時，由於評估算法已經預先在大量實際語音數據上進行了學習和調整，因此評估的準確性也得到了保障。

3）反饋信息更加豐富和個性化。由於受到傳統口語測試的限制，考生測試完畢後，很難有機會從測試中獲取反饋和指導信息，以改進和提高自己的口語水平。相比之下，自動化口語測試和評估不僅僅提供考生的分數，還可以反饋各級別的診斷報告，對考生出現的常見問題進行指正，並提供改進意見。同時，還可以對考生群體的語音數據進行統計挖掘，歸納區域性的口語發音特點，為教育機構和教學人員提供有價值的參考建議。

可以看出，將計算機和網路技術套用到口語的輔助學習，特別是大規模口語測試和評估中，可以有效解決目前語言教學和大規模口語測試中的實際問題，並有助於測試者和教學人員的改進和提高，這無疑對促進我國教育事業的發展具有重大意義。

歷史和現狀

關於口語自動評估領域的特定稱謂，國內外有很多提法，最常用的稱謂就是計算機輔助語言學習（Computer-Assisted / Computer-Aided Language Learning, CALL）和計算機輔助發音訓練（Computer-Assisted / Computer-Aided Pronunciation Training, CAPT）。而國外許多機構，特別是在國際會議中，也經常使用語言習得（Language Acquisition）或口語語言技術在教育中的套用（Application of Spoken Language Technology for Education）等字眼。CALL領域的技術文獻多出自相關的期刊和學術會議論文，重要的期刊有《IEEE Transaction on Audio, Speech and Language Processing》、《Speech Communication》、《Computer Speech and Language》和《ACM Transaction on Speech and Language Processing》等，主流的會議有ICASSP、INTERSPEECH (EUROSPEECH or ICSLP)和SLaTE等，國內主要的期刊和會議有《聲學學報》、《自動化學報》、《中文信息學報》、國際中文語音語言處理大會（ISCSLP）和全國人機語音通訊學術會議（NCMMSC）等。

很早以來，許多機構和學者都探索將語音信號處理技術服務於更廣泛的用戶群體中，而這種持久的願望和需求促使了CALL研究的誕生。早在20世紀70年代末，作為IBM法國研究所的研究人員，Destombes[DestombesF\1993\ILTD]利用顯像管和示波器開發了可以顯示基頻和能量隨時間變化的硬體裝置，並可以對簡單的音素進行識別，還設計了一系列遊戲接口，以輔助身患聾啞的女兒進行語言學習。即，最初的CALL套用主要面向聾啞或聽力有障礙人士，類似的研究還有文獻[MartonyJ\1968\AAD, NickersonRS\1972\CSCP]。

進入80年代，Flege[FlegeJE\1988\LL]系統地研究了如何利用視覺信息輔助語言學習者對目標語言中的元音進行正確發音的問題，並指出如果發音錯誤可以被自動檢測出來，並且提供相應的反饋信息，那么將會對非母語語言學習者改正發音錯誤起到極大的幫助。而此時，非特定人自動語音識別技術也已經開始得到人們的關注，但是由於當時的頻譜裝備的限制，很多實驗都顯示出具有較高基頻的語音信號只能攜帶很少的聲學信息，因此研究者都把精力放在基頻較低的男聲語音識別上。直到80年代末，女聲語音識別才有起色，但是具有更高基頻的兒童語音識別還是一直被認為是巨大的挑戰。

進入90年代，英國伯明罕大學的Russell[RussellMJ\1996\ICSLP]率先關注到兒童語音識別在發音輔助學習上的套用，他使用採集到的兒童語音數據集訓練出識別器，並將識別器嵌入到發音輔助系統上，然後讓兒童念出電腦螢幕上顯示的單詞，機器便會自動對其發音的準確度給出反饋，這是最早的面向兒童語言學習的原型系統之一。與之同時，作為CALL領域又一個先驅式人物，Bernstein[BernsteinJ\1989\AbstractJASA, BernsteinJ\1990\ICSLP]開始將目光轉向母語為日語的用戶的英語學習系統的研究上，並將非母語語音識別的技術研究成果逐漸推廣到各類非母語用戶的語言學習領域。

90年代末以來，語音識別技術一直都是語言學習系統所倚重的最主要技術手段之一，而隨著用戶需求的提高，一些自然語言處理技術也被漸漸集成進來。近十年來，在網際網路、人工智慧和人機接口技術的飛速發展下，計算機輔助語言學習系統開始向互動式學習方式轉變，從而作為虛擬教師角色出現在國內外大量系統產品中。另外，也湧現出一些面向口語測試和評估的套用和系統。

此外，WarschauerM[WarschauerM\1996\MLT]將計算機輔助語言學習的研究歷史分成了三個發展階段，即20世紀60年代到70年代的行為主義階段、80年代的通訊式階段以及90年代以後的綜合式階段，行為主義階段主要採用基於操練型（Drill and Practice）課件的練習方式，通訊式階段側重於各種人機通訊手段的利用，綜合式階段則將注意力轉向多媒體（Multimedia）、網際網路（Internet）和虛擬現實（Visual Reality）等高新技術。

對於CALL領域，研究起步較早的有斯坦福國際研究院（SRI）、劍橋大學工程系（CUED）、麻省理工學院計算機與人工智慧實驗室（MIT-CSAIL）、卡內基梅隆大學（CMU）、英國伯明罕大學、荷蘭奈美根大學、日本東京大學等。起步稍晚但發展迅速或比較活躍的有美國南加州大學（USC）、加州大學洛杉磯分校（UCLA）、美國教育考試服務處（ETS）、科羅拉多大學、日本京都大學、日本國際先進通訊技術研究所（ATR）和微軟亞洲研究院等。國內比較活躍的研究機構有台灣成功大學、台灣清華大學、香港中文大學、科大訊飛、中科院自動化所、中科院聲學所和清華大學等。

技術路線

口語評估可以分為音段和超音段兩個層次，前者側重於對發音人的發音準確度進行評估，而後者側重於對發音人的語調和韻律進行評估。下述圖表給出了發音評估和診斷的層次劃分。需要指出的是，一般意義上的發音評估和診斷方法，不是針對具有某個或某些參考音模板的方法，而是一種不依賴於特定參考音模板的普適方法。至於基於參考音模板的發音評估方法，屬於針對特定任務的限定性比較強的方法。

發音評估和診斷的層次劃分

關於口語自動評估技術的算法解決框架，通常對於發音評估和診斷任務，在套用上存在音素、辭彙（短語）、句子、段落四個層面，音素、辭彙或短語層面主要面向專項練習或專項測試，而句子層面特別是段落層面則主要面向更綜合的測試場景。一般認為，使用精心設計的朗讀材料可以對測試者的整體發音水平和各種語言現象的掌握情況做出全面的考察，而當為了提高測試者對某些混淆音素或較難辭彙的掌握水平的時候，則可以放在對大量相關辭彙語音的專項考察輔導上。

對於發音評估，常常是給出段落或句子發音的總體等級或分數，或者進一步給出對內容掌握程度、發音準確度、流利度或節奏韻律等各種單項關注點的等級或分數，並提供出相應的統計指標或反饋報告。對於發音檢錯和診斷，從基於辭彙的專項輔助語言學習層面來說，需要對各音素的錯誤進行定位，對錯誤形式和錯誤程度進行診斷，並給出有效的反饋意見，以指導測試者經過改進後可以正確發音；而從基於句子或段落的綜合考察層面來說，一般則不需要給出每個音素的細節發音情況，只需要給出音素類別的總體掌握水平即可，或者進一步地指出掌握不好的音素類別或者經常出錯的辭彙。可見，發音評估和診斷針對不同的套用層面，其需要解決的問題是各有側重的，需要具體問題具體分析，並調整相應的技術解決方案。

口語自動評估和診斷技術的總體技術框架

上圖從整體上給出了對發音評估和診斷問題的技術解決框架，在後台離線部分，需要訓練出合適的供評估比對的發音模型，這裡的發音模型是一個廣義的概念，包含對各種發音現象的建模（如發音、重音、聲調和語調等），並不僅僅局限於純粹的衡量發音準確度的模型，而所有發音模型都是建立在數據訓練基礎上的。對於線上套用部分，待測語音通過前端處理、特徵提取和模式匹配等環節給出基本的供評估和診斷使用的信息，然後再根據評估、診斷或報告的套用背景和具體要求進行調整和集成，以形成問題的最終解決方案或實際系統。

可見，技術解決框架的核心問題和主要難點體現在前端處理、特徵提取、發音模型訓練和匹配等三個環節上，這三個部分環環相扣，每個部分的技術水平都會對整個系統產生決定性的影響，而後端的集成和套用環節則不只限於技術層面，還需要考慮與套用背景和潛在用戶的接口問題。

套用系統

SRI（斯坦福國際研究院）是最早系統地研究發音質量自動評估的機構之一，相關科研成果已經成功套用於EduSpeak和WebGrader系列軟體[NeumeyerL\1998\InSTiLL, FrancoH\2000\InSTiLL, SpeechAtSRI\Online]。EduSpeak系統主要是利用說話人自適應技術融合母語和非母語語音，使得系統在識別率方面有較好的效果，並結合對數後驗機率得分、段長得分和語速得分等對發音做出評判，其發音質量自動評估模組已經申請專利。SRI還利用類似的技術開發了基於網路的英語互動式學習輔助軟體——WebGrader系統，內嵌了發音質量自動評估模組。

ISLE（Interactive Spoken Language Education）系統[MenzelW\2000\InSTiLL, ISLEdemo\Online] 是一個針對義大利和德國的英語學習者所設計的英語發音訓練系統，其中包含了發音準確度自動評估模組，主要特點是可以檢測發音錯誤的位置和發音錯誤的類型。然而，該系統在錯誤類型檢測與反饋方面的效果並不理想，任務的難度比預期的要大很多。

TBALL（Technology Based Assessment of Language and Literacy）[AlwanA\2007\MMSP, Tball\Online]是用於對美國具有不同口音背景的兒童英語朗讀技能進行自動評估的一個項目。系統由學生界面、評估界面和教師界面三個部分組成，其中的評估部分包含了自動語音識別和發音評估模組，並提供單詞確認、音節融合、字母識別、字母發音和閱讀理解等多個評估任務，對於不同評估任務採取不同的技術手段，生成面向不同層次的報告。學生界面充分考慮到兒童的特點，具有友好性和趣味性，而教師界面則嵌入了數據挖掘模組，可以監督學生口語水平的變化。

SCILL（Spoken Conversational Interface for Language Learning）[SCILL\Online, SeneffS\2004\InSTiLL]是麻省理工大學和劍橋大學的一個合作研究項目，其目標是構建一個基於口語對話和語音識別技術的語言學習系統，該系統具有四個主要引擎，即智慧型口語對話管理引擎、限定領域雙語翻譯和轉換引擎、對話發音評估和反饋引擎以及為教師提供的系列教學工具引擎，其中對話發音評估和反饋引擎是對學生和機器的對話進行分析，對學生所犯的錯誤進行反饋。該系統可以在限定領域與學生進行對話，所涉及的關鍵技術主要包括對非母語語音的魯棒性識別和理解、限定領域雙語翻譯、具有高自然度和可懂度的語音合成、自動產生模擬對話的能力，以及對發音質量和流利度的自動評估等。從該項目的相關介紹和演示來看，整個系統可以使學生在一個趣味性的和無壓力的環境下進行自主性學習，側重點在於口語對話的生成和語音跟蹤技術，但在發音錯誤診斷方面的工作不是很理想。

PhonePass和Versant系統[BernsteinJ\2007\PSTCALL, DowneyR\2008\LAQ]是由美國Ordinate公司開發的系列化口語自動評測系統，PhonePass是Versant的前身。PhonePass採用電話測試的形式，針對第二語言學習者的口語發音水平進行評測，每次評測大約需要十五分鐘，包括朗讀、複述、簡答等題型，測試者在完成測試後的幾分鐘內就可以獲得評估結果，評估結果中包括一個總分和四項基本技能得分。Versant的發音評估技術是建立在大規模標註過的具有不同發音水平的資料庫基礎上的，能夠準確定位每一個詞和每一次停頓，並提取不同的評估特徵，最後通過統計模型來擬合出評估分數。

國語水平自動測試系統是由科大訊飛公司研發的自動評測系統，主要考察對象是母語為中文的受測人的國語口語水平，屬於第一語言自動評測。測試題目包括單字詞朗讀、短文朗讀和給定話題自由發言。系統根據受測者的回答給出評估分數，並針對受測者的發音問題給出診斷報告，系統同時具有統計功能，可以給出受測者測試成績的歷史分布。由於該系統是第一語言自動評測，所以與Versant系統相比，它更關注較為精細的評估特徵，採用了一些具有針對性的技術。

中學生聽力口語自動化測試系統由中科院自動化所和牛津大學出版社合作開發，面向國內基礎教育測評領域，採用“人機對話”的形式完成整個聽力和口語題目的測試，並進行全自動的計算機評分，同時反饋各級別的統計指標和診斷報告。口語測試包括朗讀、簡答、翻譯等題型，目前已經被江蘇、浙江等地區採用。

針對目前國外和國內針對CALL領域的系統、產品和其套用情況，其中規模和影響較大的系統或產品有，Auralog公司的Tell me More ，說寶堂公司的Saybot ，艾爾公司的MyET，Ordinate公司的PhonePass和Versant ，美國教育考試服務處的SpeechRater，科大訊飛的國語水平測試系統，中科院自動化所的中學生英語聽力口語自動化考試系統。

此外，本文也對系統和產品的發展趨勢進行了總結，具體如下:

1）寓教於樂。“教”要求產品具有系統的課程安排（進階或階段總結等），“樂”則體現在動畫、遊戲、互動等多種手段上，這是保持和增強用戶學習興趣的關鍵所在（特別是針對兒童）。如MIT和科羅拉多大學的基於對話和遊戲的系統。

2）提供網路線上服務。傳統的系統或產品大多數是基於靜態媒介（CD-based），而目前基於網路發布（Web-based delivery）的市場推廣形式將成為主流方向。

3）增強核心技術含量。系統產品不局限於表層開發，應該將最新的語音技術嵌入在產品中。提高智慧型化水平，內容題型要做得更全面和更靈活，並向開放式題型發展。

4）針對性更強，用戶群體更廣泛。包括兒童語言學習者、第二語言學習者（出國、商務、求職、生活實用等）、殘障人士以及語言考試和評測等。

5）軍事套用值得關注。利用語音技術和虛擬現實技術加強對士兵在語言交流方面的訓練，提高協同作戰水平。例如，美國Alelo公司[Alelo\Online]所開發的面向異國語言和文化學習的戰術訓練系統。

口語自動評估技術