語音編解碼

子帶ADPCMSB-ADPCM)技術。G.721標準是一個代碼轉換系統。它使用ADPCM轉換技術,實現64 kb/s A律μ律PCM速率和32 kb/s速率之間的相互轉換。

基本介紹

  • 中文名:語音編解碼
  • 制定者:ITU-T
  • 所需頻寬:64Kbps
  • 缺點:占用的頻寬較高
711,721,722.1,723(低碼率語音編碼算法),723.1(雙速率語音編碼算法),728,729,729A,GIPS,Apt-X,NICAM,MPEG-1 audio layer 1,MP3(MPEG-1 audio layer 3),MPEG-2 audio layer,Dolby AC-3,PCM編碼(原始數字音頻信號流),WMA(Windows Media Audio),PCMU(G.711U),PCMA(G.711A),ADPCM(自適應差分PCM),

711

類型:Audio
制定者:ITU-T
所需頻寬:64Kbps
特性:算法複雜度小,音質一般
優點:算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:占用的頻寬較高
套用領域:voip
版稅方式:Free
備註:70年代CCITT公布的G.711 64kb/s脈衝編碼調製PCM

721

類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:相對於PCMAPCMU,其壓縮比較高,可以提供2:1的壓縮比。
優點:壓縮比大
缺點:聲音質量一般
套用領域:voip
版稅方式:Free

722.1

類型:Audio
制定者:ITU-T
所需頻寬:16Kbps
特性:G722.1能提供高保真的語音質量
優點:音質好
缺點:頻寬要求高
套用領域:voip
版稅方式:付費
備註:子帶ADPCMSB-ADPCM)技術

723(低碼率語音編碼算法)

類型:Audio
制定者:ITU-T
所需頻寬:5.3Kbps/6.3Kbps
特性:語音質量接近良,頻寬要求低,高效實現,便於多路擴展,可利用C5402片內16kRAM實現53coder。達到ITU-TG723要求的語音質量,性能穩定。可用於IP電話語音信源編碼或高效語音壓縮存儲。
缺點:聲音質量一般
套用領域:voip
版稅方式:Free
備註:G.723語音編碼器是一種用於多媒體通信,編碼速率為5.3kbits/s和6.3kbit/s的雙碼率編碼方案。G.723標準是國際電信聯盟(ITU)制定的多媒體通信標準中的一個組成部分,可以套用於IP電話等系統中。其中,6.3kbits/s碼率編碼器採用多脈衝最大似然量化技術(MP-MLQ),5.3kbits/s碼率編碼器採用代數碼激勵線性預測技術。

723.1(雙速率語音編碼算法)

類型:Audio
制定者:ITU-T
所需頻寬:5.3Kbps(22.9)
特性:能夠對音樂和其他音頻信號進行壓縮和解壓縮,但它對語音信號來說是最優的。G.723.1採用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的比特流中加入了人為的噪聲。除了預留頻寬之外,這種技術使發信機的數據機保持連續工作,並且避免了載波信號的時通時斷。
優點:避免了載波信號的時通時斷。
缺點:語音質量一般
套用領域:voip
版稅方式:Free
備註:G.723.1算法是 ITU-T建議的套用於低速率多媒體服務中語音或其它音頻信號的壓縮算法,其目標套用系統包括H.323H.324等多媒體通信系統 。該算法已成為IP電話系統中的必選算法之一。

728

類型:Audio
制定者:ITU-T
所需頻寬:16Kbps/8Kbps
特性:用於IP電話、衛星通信、語音存儲等多個領域。G.728是一種低時延編碼器,但它比其它的編碼器都複雜,這是因為在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其性能。
優點:後向自適應,採用自適應後置濾波器來提高其性能
缺點:比其它的編碼器都複雜
套用領域:voip
版稅方式:Free
備註:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP)。1996年ITU公布了G.728 8kb/s的CS-ACELP算法,可以用於IP電話、衛星通信、語音存儲等多個領域。16 kbps G.728低時延碼激勵線性預測。
G.728是低比特線性預測合成分析編碼器(G.729G.723.1)和後向ADPCM編碼器的混合體。G.728是LD-CELP編碼器,它一次只處理5個樣點。對於低速率(56~128kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議採用的語音編碼器

729

類型:Audio
制定者:ITU-T
所需頻寬:8Kbps
特性:在良好的信道條件下要達到長話質量,在有隨機比特誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等。這種語音壓縮算法可以套用在很廣泛的領域中,包括IP電話、無線通信、數字衛星系統和數字專用線路。
G.729算法採用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)算法。這種算法綜合了波形編碼參數編碼的優點,以自適應預測編碼技術為基礎,採用了矢量量化、合成分析和感覺加權等技術。
G.729編碼器是為低時延套用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延為25ms,比特率為8 kbps。
優點:語音質量良,套用領域很廣泛,採用了矢量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:在處理隨機比特錯誤方面性能不好。
套用領域:voip
版稅方式:Free
備註:國際電信聯盟(ITU-T)於1995年11月正式通過了G.729。ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準。G.729是由美國、法國、日本和加拿大的幾家著名國際電信實體聯合開發的。

729A

類型:Audio
制定者:ITU-T
所需頻寬:8Kbps(34.4)
特性:複雜性較G.729低,性能較G.729差。
優點:語音質量良,降低了計算的複雜度以便於實時實現,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:性能較G.729差
套用領域:voip
版稅方式:Free
備註:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的複雜度以便於實時實現,因此使用的都是G.729A。

GIPS

類型:Audio
制定者:瑞典Global IP Sound公司
所需頻寬:
特性:GIPS技術可根據頻寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網路自適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。
優點:很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果
缺點: 不是Free
套用領域:voip
版稅方式:每年支付一筆使用權費用
備註:GIPS音頻技術是由來自瑞典的全球頂尖的語音處理高科技公司--"GLOBAL IPSOUND"提供的專用於網際網路的語音壓縮引擎系統。GIPS技術可根據頻寬狀況自動調節編碼碼率,提供低碼率高質量的音頻。GIPS的核心技術(網路自適應算法,丟包補償算法和回聲消除算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。

Apt-X

類型:Audio
制定者:Audio Processing Technology 公司
所需頻寬:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用於專業音頻領域,提供高品質的音頻。其特點是:
①採用4:1:4的壓縮與放大方案;
②硬體低複雜度;
③極低的編碼延遲;
④由單晶片實現;
⑤單聲道或立體聲編解碼;
⑥只需單設備即可實現22.5kHz的雙通道立體聲;
⑦高達48kHz的採樣頻率;
容錯性好;
⑨完整的AUTOSYNC™編解碼同步方案;
⑩低功率消耗
優點:高品質的音頻,硬體複雜度低,設備要求低
缺點:不是Free
套用領域:voip
版稅方式:一次性付費
備註:子帶ADPCMSB-ADPCM)技術

NICAM

NICAM(Near Instantaneous Companded Audio Multiplex 準瞬時壓擴音頻復用)
類型:Audio
制定者:英國BBC廣播公司
所需頻寬:728Kbps
特性:套用範圍及其廣泛,可用它進行立體聲或雙語廣播
優點:套用範圍及其廣泛,信噪比高,動態範圍寬、音質同CD相媲美,故名麗音,因此NICAM又稱為麗音
缺點:不是Free,頻寬要求高
套用領域:voip
版稅方式:一次性付費
備註:NICAM也稱麗音,它是英文Near-Instantaneously Companded Audio Multiplex的縮寫,其含義為準瞬時壓擴音頻復用,是由英國BBC廣播公司開發研究成功的。
通俗地說NICAM技術實際上就是雙聲道數字聲技術,其套用範圍及其廣泛,最典型的套用便是電視廣播附加雙聲道數字聲技術,利用它進行立體聲或雙語廣播,以充分利用電視頻道的頻譜資源。這是在常規電視廣播的基礎上無需增加許多投資就可以實現的。在進行立體聲廣播時,它提高了音頻的信號質量,使其接近CD的質量。而且還可以利用NICAM技術進行高速數據廣播及其他數據傳輸的增殖服務,這在當今的信息化社會中似乎就顯得尤為重要了!

MPEG-1 audio layer 1

類型:Audio
制定者:MPEG
所需頻寬:384kbps(壓縮4倍)
特性:編碼簡單,用於數字盒式錄音磁帶,2聲道,VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
套用領域:voip
版稅方式:Free
備註:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用於數字盒式錄音磁帶
--層2(Layer 2):算法複雜度中等,用於數字音頻廣播(DAB)和VCD等
--層3(Layer 3):編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍
MUSICAM(MPEG-1 audio layer 2,即MP2)
類型:Audio
制定者:MPEG
所需頻寬:256~192kbps(壓縮6~8倍)
特性:算法複雜度中等,用於數字音頻廣播(DAB)和VCD等,2聲道,而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數位元組目的製作、交換、存儲、傳送中得到廣泛套用。
缺點:
套用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

MP3(MPEG-1 audio layer 3)

類型:Audio
制定者:MPEG
所需頻寬:128~112kbps(壓縮10~12倍)
特性:2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低碼率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒。
優點:壓縮比高,適合用於網際網路上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
套用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

MPEG-2 audio layer

類型:Audio
制定者:MPEG
所需頻寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編解碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道7.1聲道環繞立體聲
優點:支持5.1聲道和7.1聲道的環繞立體聲
缺點:
套用領域:voip
版稅方式:按個收取
AAC(Advanced Audio Coding,先進音頻編碼)
類型:Audio
制定者:MPEG
所需頻寬:96-128 kbps
特性:AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路數據。它可同時傳送16套節目,每套節目的音頻及數據結構可任意規定。
AAC主要可能的套用範圍集中在網際網路網路傳播、數字音頻廣播,包括衛星直播和數字AM、以及數位電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜數據。具有48 個主要音頻通道,16 個低頻增強通道,16 個集成數據流, 16 個配音,16 種編排。
優點:支持多種音頻聲道組合,提供優質的音質
缺點:
套用領域:voip
版稅方式:一次性收費
備註:AAC於1997年形成國際標準ISO 13818-7。先進音頻編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音頻標準(ISO/IEC13818-3)之後的新一代音頻壓縮標準
在MPEG-2制訂的早期,本來是想將其音頻編碼部分保持與MPEG-1兼容的。但後來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲道音頻標準。理所當然地,這個標準是不兼容MPEG-1的,因此被稱為MPEG-2AAC。換句話說,從表面上看,要製作和播放AAC,都需要使用與MP3完全不同的工具。

Dolby AC-3

類型:Audio
制定者:美國杜比公司
所需頻寬:64kbps
特性:提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的信息在製作和還原過程中全部數位化,信息損失很少,細節豐富,具有真正的立體聲效果,在數位電視、DVD和家庭影院中廣泛使用。
優點:環繞立體聲,信息損失很少,細節豐富,具有真正的立體聲效果
缺點:
套用領域:voip
版稅方式:按個收取
備註:杜比數字AC-3(Dolby DigitalAC-3):美國杜比公司開發的多聲道全頻帶聲音編碼系統,它提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成。

PCM編碼(原始數字音頻信號流)

類型:Audio
制定者:ITU-T
所需頻寬:1411.2 Kbps
特性:音源信息完整,但冗餘度過大
優點:音源信息保存完整,音質好
缺點:信息量大,體積大,冗餘度過大
套用領域:voip
版稅方式:Free
備註:在計算機套用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材保存及音樂欣賞,CD、DVD以及我們常見的WAV檔案中均有套用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,並不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。要算一個PCM音頻流碼率是一件很輕鬆的事情,採樣率值×採樣大小值×聲道數bps。一個採樣率為44.1KHz,採樣大小為16bit,雙聲道的PCM編碼的WAV檔案,它的數據速率則為 44.1K×16×2=1411.2 Kbps。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鐘的音樂信息。

WMA(Windows Media Audio)

類型:Audio
制定者:微軟公司
所需頻寬:320~112kbps(壓縮10~12倍)
特性:當Bitrate小於128K時,WMA幾乎在同級別的所有有損編碼格式中表現得最出色,但似乎128k是WMA一個檻,當Bitrate再往上提升時,不會有太多的音質改變。
優點:當Bitrate小於128K時,WMA最為出色且編碼後得到的音頻檔案很小。
缺點:當Bitrate大於128K時,WMA音質損失過大。WMA標準不開放,由微軟掌握。
套用領域:voip
版稅方式:按個收取
備註:WMA的全稱是Windows MediaAudio,它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由於WMA在壓縮比和音質方面都超過了MP3,更是遠勝於RA(RealAudio),即使在較低的採樣頻率下也能產生較好的音質,再加上WMA有微軟的Windows MediaPlayer做其強大的後盾,所以一經推出就贏得一片喝彩。

PCMU(G.711U)

類型:Audio
制定者:ITU-T
所需頻寬:64Kbps(90.4)
特性:PCMUPCMA都能提供較好的語音質量,但是它們占用的頻寬較高,需要64kbps。
優點:語音質量優
缺點:占用的頻寬較高
套用領域:voip
版稅方式:Free
備註:PCMUandPCMA都能夠達到CD音質,但是它們消耗的頻寬也最多(64kbps)。如果網路頻寬比較低,可以選用低比特速率的編碼方法,如G.723G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的頻寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果頻寬足夠並且需要更好的語音質量,就使用PCMU和 PCMA,甚至可以使用寬頻的編碼方法G722(64kbps),這可以提供有高保真度的音質。

PCMA(G.711A)

類型:Audio
制定者:ITU-T
所需頻寬:64Kbps(90.4)
優點:語音質量優
缺點:占用的頻寬較高
套用領域:voip
版稅方式:Free
備註:PCMU andPCMA都能夠達到CD音質

ADPCM(自適應差分PCM)

類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心想法是:
①利用自適應的思想改變數化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
缺點:聲音質量一般
套用領域:voip
版稅方式:Free
備註:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形數據的一種有損壓縮算法, 它將聲音流中每次採樣的 16bit 數據以 4bit 存儲, 所以壓縮比1:4. 而壓縮/解壓縮算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。LPC(Linear Predictive Coding,線性預測編碼) 類型:Audio
制定者:
所需頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
套用領域:voip
版稅方式:Free
備註:參數編碼又稱為聲源編碼,是將信源信號在頻率域或其它正交變換域提取特徵參數,並將其變換成數字代碼進行傳輸。解碼為其反過程,將收到的數字序列經變換恢復特徵參量,再根據特徵參量重建語音信號。具體說,參數編碼是通過對語音信號特徵參數的提取和編碼,力圖使重建語音信號具有儘可能高的準確性,但重建信號的波形同原語音信號的波形可能會有相當大的差別。如:線性預測編碼LPC)及其它各種改進型都屬於參數編碼。該編碼比特率可壓縮到2Kbit/s-4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。CELP(Code Excited Linear Prediction,碼激勵線性預測編碼) 類型:Audio
制定者:歐洲通信標準協會(ETSI)
所需頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
②用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音周期延遲的外形更為平滑;
④根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量; ⑤ 使用基於信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。
結論:
① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
②使用快速算法,可以有效地降低CELP算法的複雜度,使它完全可以實時地實現;
③CELP可以成功地對各種不同類型的語音信號進行編碼,這種適應性對於真實環境,尤其是背景噪聲存在時更為重要。
優點:用很低的頻寬提供了較清晰的語音
缺點:
套用領域:voip
版稅方式:Free
備註:1999年歐洲通信標準協會(ETSI)推出了基於碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標準自適應多速率語音編碼器AMR),其中最低速率為4.75kb/s,達到通信質量。CELP 碼激勵線性預測編碼是Code Excited LinearPrediction的縮寫。CELP是近10年來最成功的語音編碼算法。
CELP語音編碼算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作為激勵參數,每次編碼時都在這個碼本中搜尋一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所採用,美國聯邦標準FS1016就是採用CELP的編碼方法,主要用於高質量的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法,以其低比特率著稱(4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。

相關詞條

熱門詞條

聯絡我們