語音編碼器

語音編碼器

語音編碼器的主要功能就是把用戶語音的PCM(脈衝編碼調製)樣值編碼成少量的比特(幀)。這種方法使得語音在連路產生誤碼、網路抖動和突發傳輸時具有健壯性(Robustness)。在接收端,語音幀先被誤碼為PCM語音樣值,然後再轉換成語音波形。

基本介紹

  • 中文名:語音編碼器
  • 外文名:vocoders
  • 類型:波形編器、聲碼器、混合編碼器
  • 比特率:64Kbps
  • 評價:幀大小等
  • 又稱:編碼解器
簡介,分類,線性預測合成分析,壓縮質量,有損編解碼,無損編解碼,評價,

簡介

在IP語音技術(VOIP)中常用的編碼解碼器,它們常被稱為編碼解器、語音編碼器或者簡稱為編碼器。語音編碼器的主要功能就是把用戶語音的PCM(脈衝編碼調製)樣值編碼成少量的比特(幀)。這種方法使得語音在連路產生誤碼、網路抖動和突發傳輸時具有健壯性(Robustness)。在接收端,語音幀先被誤碼為PCM語音樣值,然後再轉換成語音波形。

分類

語音編碼器分為三種類形:(a)波形編器;(b)聲碼器;(c)混合編碼器。
波形編碼器會儘可能構出包括背景噪單在內的模擬波形。由於波形編碼器作用於所有輸入信號,因此會產生高質量的樣值。然而,波形編碼器工作在高比特率。例如:ITU-G.711規範(PCM)用的比特率為64Kbps。 聲碼器(vocoder)不會再生原始波形。這組編碼器會提取一組參數,這組參數被送到接收端,用來導出語音產生模形。線性預測編碼(LPC)用來獲取一時變數字濾波器的參數。這個濾波器用來模擬說話人的聲道輸出[WEST96]。在電話系統中使用聲碼器語音質量不夠好。在VOIP中常用的語音編碼器是混合編碼器,它融入了波形編碼器和聲器的長處,它的另一特點是它工作在非常低的比特率(4-6Kbps)。混合編碼器採用合成分析(AbS)。

線性預測合成分析

最常用的比特率在4.8kbps~16 kbps之間的語音編碼器是基於模型編碼器的,這些編碼器都是線性預測合成分析(LPAS)方法。為了隨著時間的變化模擬語音信號,線性預測語音產生模型必須用適當的信號來激勵。每隔一段固定時間(如每隔20ms),語音模型參數和激勵參數都必須做一次估計和更新,並用來控制語音模型。

壓縮質量

有損編解碼

在軟體界有許多相對更加流行的編解碼器是有損的,意味著它們壓縮過程犧牲了一定的質量。通常這種壓縮實際上同未被壓縮的聲音或圖像沒區別。更小的數據集緩解了相對高昂的存儲器。較低的數據率也降低了花銷並在數據傳輸過程中提升了品質。

無損編解碼

也有許多的無損壓縮,特別套用於在需要原始流中所有信息時壓縮模式下獲取數據。如果保留數據流的原始品質比削減相應的更大數據更加重要,那么無損壓縮更佳。連續使用多種編解碼器或者編碼體系也會顯著的降低質量。不斷下降的存儲空間開銷和網路頻寬正使得有損壓縮的需求下降。

評價

評估編碼器的性能時要考慮幾個重要因素。這些因素如下提示:
幀大小:幀的大小表示語音流量的時間長度,也稱為幀時延。 幀是語音信號的分立部件,且每幀是根據語音樣點更新的。本 介紹的編碼器都是一次處理一幀。每幀信息各放在各語音分組 中,並傳送給接收端。
處理時延:它表示在編碼器中對一幀語音做編碼算法處理所 需時間。它通常簡單計入幀時延。處理時延好稱為算法時延。
前視時延:編碼器為了對當前幀的編碼提供幫助而檢查下一 幀的一定長度,此長度就稱為前視時延。前視的想法是為了利 用相鄰語音幀之間的密切相關性。 幀長度:這個值表示經編碼處理後的位元組數(不包括幀頭)。
語音比特率:當編碼器的輸入是標準脈衝編碼調製的語音 碼流(比特率為64 kbit/s)時,編解碼器的輸出速率。

相關詞條

熱門詞條

聯絡我們