非特定人語音識別

簡介

MCU平台的語音識別技術從套用角度上通常分為2類：一類是特定人語音識別，一類是非特定人語音識別。特定人語音識別技術是針對一個特定的人的識別技術，簡單說就是只識別一個人的聲音，不適用於更廣泛的群體；而非特定人識別技術恰恰相反，可以滿足不同人的語音識別要求，適合廣泛人群套用。

套用模式

非特定人語音識別的套用模式是在產品定型前按照確定的十幾個語音互動詞條，採集200人左右的聲音樣本，經過工程師的PC算法處理得到互動詞條的語音模型和特徵資料庫，然後燒錄到晶片上。

而基於音素算法的套用模式不需要採集很多人的聲音樣本，就可以做互動識別，但缺點是識別率不高，識別性能不穩定。

嵌入式非特定人語音識別系統

嵌入式非特定人語音識別系統具有體積小、可靠性高、功耗低、價格低、易於商品化等特點，套用於智慧型玩具領域技術已經非常成熟。

嵌入式非特定人語音識別晶片SR160X是一個完整的語音識別系統，除了語音識別外還具備語音提示、語音回放、高壓縮率高品質放音、錄音、溫度檢測、時鐘、鬧鐘及紅外操控等功能。嵌入式非特定人語音識別系統的特點使得其套用領域十分廣泛，可以做玩具、禮品、學習機、賀卡等消費類電子產品控制。

非特定人語音識別晶片

非特定人單晶片語音識別晶片SR130X

	型號	功能	最多識別詞條	識別率	規格	說明
1	SR1301	無Flash，中文、外語語音識別、放音、LED、音樂、電機	多級，任意	97%	非特定人	學習機、兒童電腦、複雜方案中

海量詞庫免采庫—非特定人SR140X

	型號	功能	最多識別詞條	識別率	規格	說明
1	SR1401	無Flash，中文、外語語音識別、放音、LED、音樂、電機	多級，任意	97%	非特定人	學習機、兒童電腦、複雜方案中
2	SR1402	中文語音識別、放音、錄音、LED、音樂、電機	多級，任意	97%	非特定人	學習機、兒童電腦、複雜方案中

非特定人海量詞庫免采庫語音識別晶片SR160X

	型號	功能	最多識別詞條	識別率	規格	說明
1	SR1601	中文、外文識別、放音、LED、音樂、電機	8	97%	非特定人	適合價格非常敏感的玩具
2	SR1602	中文、外文識別、放音、LED、音樂、電機、時間、鬧鐘	16	97%	非特定人	複雜方案中
3	SR1603	中文、外文識別、放音、錄音、LED、音樂、電機、時間、鬧鐘、感測器	25	97%	非特定人	電子狗、機器人等等特殊方案中

語音識別系統結構

一個完整的基於統計的非特定人語音識別系統可大致分為三部分：

(1)語音信號預處理與特徵提取；

(2)聲學模型與模式匹配；

(3)語言模型與語言處理。

語音信號預處理與特徵提取

選擇識別單元是語音識別研究的第一步。語音識別單元有單詞（句）、音節和音素三種，具體選擇哪一種，由具體的研究任務決定。

單詞（句）單元廣泛套用於中小辭彙語音識別系統，但不適合大辭彙系統，原因在於模型庫太龐大，訓練模型任務繁重，模型匹配算法複雜，難以滿足實時性要求。

音節單元多見於漢語語音識別，主要因為漢語是單音節結構的語言，而英語是多音節，並且漢語雖然有大約1300個音節，但若不考慮聲調，約有408個無調音節，數量相對較少。因此，對於中、大辭彙量漢語語音識別系統來說，以音節為識別單元基本是可行的。

音素單元以前多見於英語語音識別的研究中，但目前中、大辭彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母（包括零聲母有22個）和韻母（共有28個）構成，且聲韻母聲學特性相差很大。實際套用中常把聲母依後續韻母的不同而構成細化聲母，這樣雖然增加了模型數目，但提高了易混淆音節的區分能力。由於協同發音的影響，音素單元不穩定，所以如何獲得穩定的音素單元，還有待研究。

非特定人語音識別

基本介紹

簡介

套用模式

嵌入式非特定人語音識別系統

非特定人語音識別晶片

語音識別系統結構

語音信號預處理與特徵提取

聲學模型與模式匹配

語言模型與語言處理

非特定人語音識別的主要問題

相關詞條

熱門詞條