分部
MPEG-4由一系列的子標準組成,被稱為部 (part)(有時也譯為卷),包括以下的部分:
第一部分(ISO/IEC 14496-1):系統:描述視訊和音頻數據流的控制、同步以及混合方式(即混流 Multiplexing,簡寫為MUX)。
第二部分(ISO/IEC 14496-2):視訊:定義了一個對各種視覺訊息(包括自然視訊、靜止紋理、計算機合成圖形等等)的編解碼器。(例如XviD編碼就屬於MPEG-4 Part2)
第三部分(ISO/IEC 14496-3):音訊:定義了一個對各種音頻訊號進行編碼的編解碼器的集合。包括高階音頻編碼(AdvancedAudio Coding,縮寫為AAC)的若干變形和其他一些音頻/語音編碼工具。
第四部分(ISO/IEC 14496-4):一致性:定義了對本標準其他的部分進行一致性測試的程式。
第五部分(ISO/IEC 14496-5):參考軟體:提供了用於演示功能和說明本標準其他部分功能的軟體。
第六部分(ISO/IEC 14496-6):多媒體傳輸整合框架(DMIF for Delivery Multimedia IntegrationFramework)
第七部分(ISO/IEC 14496-7):最佳化的參考軟體:提供了對實作進行最佳化的例子(這裡的實作指的是第五部分)。
第八部分(ISO/IEC 14496-8):在IP網路上傳輸:定義了在IP網路上傳輸MPEG-4內容的方式。
第九部分(ISO/IEC 14496-9):參考硬體:提供了用於演示怎樣在硬體上實作本標準其他部分功能的硬體設計方案。
第十部分(ISO/IEC 14496-10):進階視訊編碼或稱高階視訊編碼(Advanced Video Coding,縮寫為AVC):定義了一個視訊編解碼器(codec)。AVC和XviD都屬於MPEG-4編碼,但由於AVC屬於MPEG-4 Part10,在技術特性上比屬於MPEG-4Part2的XviD要先進。另外,它和ITU-T H.264標準是一致的,故又稱為H.264。
第十二部分(ISO/IEC 14496-12):基於ISO的媒體檔案格式:定義了一個儲存媒體內容的檔案格式。
第十三部分(ISO/IEC 14496-13):智慧財產權管理和保護(IPMP for Intellectual Property Management andProtection)拓展。
第十四部分(ISO/IEC 14496-14):MPEG-4檔案格式:定義了基於第十二部分的用於儲存MPEG-4內容的視訊檔案格式。
第十五部分(ISO/IEC 14496-15):AVC檔案格式:定義了基於第十二部分的用於儲存第十部分的視訊內容的檔案格式。
第十六部分(ISO/IEC 14496-16):動畫框架擴充功能(AFX : Animation Framework eXtension)。
第十七部分(ISO/IEC 14496-17):同步文字字幕格式。
第十八部分(ISO/IEC 14496-18):字型壓縮和串流傳輸(針對開放字型格式 Open Font Format)。
第十九部分(ISO/IEC 14496-19):合成材質流(Synthesized Texture Stream)。
第二十部分(ISO/IEC 14496-20):簡單場景表示(LASeR for Lightweight Scene Representation。
第二十一部分(ISO/IEC 14496-21):用於描繪(Rendering)的MPEG-J拓展。
第二十二部分(ISO/IEC 14496-22):開放字型格式(Open Font Format)。
第二十三部分(ISO/IEC 14496-23):符號化音樂表示(Symbolic Music Representation)。
第二十四部分(ISO/IEC 14496-24):音頻與系統互動作用(Audio and systems interaction)。
第二十五部分(ISO/IEC 14496-25):3D圖形壓縮模型(3D GraphicsCompression Model)。
第二十六部分(ISO/IEC 14496-26):音訊一致性檢查:定義了測試音頻數據與ISO/IEC 14496-3是否一致的方法(Audioconformance)。
第二十七部分(ISO/IEC 14496-27):3D圖形一致性檢查:定義了測試3D圖形數據與ISO/IEC14496-11:2005, ISO/IEC 14496-16:2006, ISO/IEC 14496-21:2006, 和 ISO/IEC14496-25:2009是否一致的方法(3D Graphicsconformance)。
Profiles是在每個部分內定義的,所以對某個部分的一個實作通常不是對該部分的完整實作。
MPEG-1、MPEG-2、MPEG-7和MPEG-21是由MPEG制定的其他MPEG標準。
MPEG-4的特點
(1)對於不同的對象可採用不同的編碼算法,從而進一步提高壓縮效率;
(2)對象各自相對獨立,提高了多媒體數據的可重用性;
(3)允許用戶對單個的對象操作,提供前所未有的互動性;
(4)允許在不同的對象之間靈活分配碼率,對重要的對象可分配較多的位元組,對次要的對象可分配較少的位元組,從而能在低碼率下獲得較好的效果;
(5)可以方便的集成自然音視頻對象和合成音視頻對象。
MPEG-4標準構成
MPEG-4碼流主要包括基本碼流和系統流,基本碼流包括音視頻和場景描述的編碼流表示,每個基本碼流只包含一種數據類型,並通過各自的解碼器解碼。系統流則指定了根據編碼視聽信息和相關場景描述信息產生互動方式的方法,並描述其互動通信系統。
系統
MPEG-4系統把音視頻對象及其組合復用成一個場景,提供與場景互相作用的工具,使用戶具有互動能力。MPEG-4的數據在3個層中進行傳輸,這3層分別是壓縮層、同步層和傳輸層。其中,壓縮層是執行媒體解碼的系統組件,接收從同步層傳來的壓縮數據,並完成解碼操作。同步層負責各個壓縮媒體的同步和緩衝,一方面接收來自傳輸層的同步層數據包(SL),從流中提取同步數據,為以後的同步解碼和基本流解碼的合成做準備;另一方面,實現壓縮的數據流和同步信息封裝層的同步數據包,並將它們傳輸到傳輸層。傳輸層完成各種傳輸協定的描述,使用DMIF套用接口,通過接口定義數據流的傳輸接口,並定義信道建立和斷開的信號。MPEG-4的系統終端模型如圖所示。
音頻
與MPEG-1、MPEG-2相比,MPEG-4不僅支持自然聲音(如語音和音樂),還支持合成聲音(如
MIDI)。MPEG-4音頻部分將音頻的合成編碼和自然聲音的編碼相結合,並支持音頻的對象特徵。
MPEG-4研究比較了現有的各種音頻編碼算法,支持2~64kbit/s的自然聲音編碼。如8kHz採樣頻率的2~4kbit/s的語音編碼,以及8kHz或16kHz採樣頻率4~16kbit/s的語音編碼,一般採用參數編碼;而6~24kbit/s的語音編碼,一般採用碼激勵線性預測(
CELP,CodeExcitedLinearPredictive)編碼技術;而16kbit/s以上碼率的編碼.則採用視頻變換編碼技術。這些技術實質上借鑑了G723、G728以及MPEG-1和
MPEG-2等。下圖給出了MPEG-4音頻支持2~64kbit/s信道語音編碼範圍。
MPEG-4引入兩個有力的編碼技術:文本到語音編碼(
TTS,Text-to-Speech)和樂譜驅動合成語音編碼。事實上,合成語音編碼技術是一種基於知識庫的參數編碼技術。樂譜驅動合成技術中,解碼器由一種特殊的合成語言—結構化音頻管弦樂團語言(SAQL,StructuredAudioOrchestraLanguage)驅動。“管弦樂團”由不同“樂器”組成,解碼器不具有某“樂器”時,MPEG-4還允許解碼器從編碼器下載該“樂器”以恢複合成聲音。
視頻
MPEG-4支持對自然和合成視覺對象的編碼。合成視覺對象包括2D、3D動畫和人面部表情動畫等。對於靜止圖像,MPEG-4採用零樹小波算法,以提高壓縮比,同時還提供多達11級的空間解析度和質量的可伸縮性。對於運動視頻對象的編碼,MPEG-4的編碼結構如下圖所示,包括形狀編碼、運動補償和文理編碼。其中的主要技術是運動估計補償、DCT變換和混合的DPCM等。
套用
由於MPEG-4是一個公開的平台,各公司、機構均可以根據MPEG-4標準開發不同的制式,因此市場上出現了很多基於MPEG-4技術的視訊格式,例如WMV 9、Quick Time、DivX、Xvid等。MPEG-4大部份功能都留待開發者決定採用是否。這意味著整個格式的功能不一定被某個程式所完全函括。因此,這個格式有所謂配置(profile)及級別(level),定義了MPEG-4套用於不同平台時的功能集合。