語音識別模組

語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的辭彙內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字元序列。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的辭彙內容。

基本介紹

  • 中文名:語音識別模組
  • 外文名:speech recognition module
技術簡介,基本原理,最小系統,套用,

技術簡介

語音識別模組是在一種基於嵌入式的語音識別技術的模組,主要包括語音識別晶片和一些其他的附屬電路,能夠方便的與主控晶片進行通訊,開發者可以方便的將該模組嵌入到自己的產品中使用,實現語音互動的目的。

基本原理

語音識別的基本原理如圖1所示。語音識別包括兩個階段:訓練和識別。不管是訓練還是識別,都必須對輸入語音預處理和特徵提取。訓練階段所做的具體工作是收集大量的語音語料,經過預處理和特徵提取後得到特徵矢量參數,最後通過特徵建模達到建立訓練語音的參考模型庫的目的。而識別階段所做的主要工作是將輸入語音的特徵矢量參數和參考模型庫中的參考模型 進行相似性度量比較,然後把相似性最高的輸入特徵矢量作為識別結果輸出。 這樣,最終就達到了語音識別的目的。
圖1 語音識別的基本原理圖1 語音識別的基本原理
現有的識別技術按照識別對象可以分為特定人識別和非特定人識別。特定人識別是指識別對象為專門的人,非特定人識別是指識別對象是針對大多數用戶,一般需要採集多個人的語音進行錄音和訓練,經過學習,達到較高的識別率。
基於現有技術開發嵌入式語音互動系統,目前主要有兩種方式:一種是直接在嵌入式處理器中調用語音開發包;另一種是嵌入式處理器外圍擴展語音晶片。第一種方法程式量大,計算複雜,需要占用大量的處理器資源,開發周期長;第二種方法相對簡單,只需要關注語音晶片的接口部分與微處理器相連,結構簡單,搭建方便,微處理器的計算負擔大大降低,增強了可靠性,縮短了開發周期。
本文的語音識別模組是以嵌入式微處理器為核心,外圍加非特定人語音識別晶片及相關電路構成。

最小系統

一般套用中語音識別系統最小系統需要包括:控制器模組、語音識別模組、功放模組、喇叭。如果需要使用語音識別功能,系統中還需要增加麥克風。
如圖2所示,用戶在使用語音識別或語音喚醒功能時,上位機傳送啟動語音識別或語音喚醒功能的命令給語音模組,模組把從麥克風采集到的語音數據,通過內部的識別模組進行轉換成相應的識別結果,通過通訊接口回傳給控制器。
圖2-採用Syn7318語音識別模組的系統構成圖
語音識別模組

套用

隨著技術的發展,傳統的鍵盤和按鈕才操作已經不能滿足人們得需求了,更方便、更自然、更人性化的人機互動方式成了人們追求的方向。基於聽覺的人機互動方式無疑是最具有互動友好性的方式之一。而嵌入式語音互動由於結構簡單,搭建方便,已成為目前研究的熱門課題。嵌入式語音識別系統和PC機的語音識別系統相比,雖然其運算速度和記憶體容量有一定限制,但它具有體積小、功耗低、可靠性高、投入小、安裝靈活等優點,特別適用於智慧型家居、機器人及消費電子等領域。

相關詞條

熱門詞條

聯絡我們