梅爾頻率倒譜係數

在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。

梅爾頻率倒譜係數 (Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音信號有更好的表示。例如在音訊壓縮中。

基本介紹

  • 中文名:梅爾頻率倒譜係數
  • 外文名:Mel-Frequency Cepstral Coefficients
  • 簡稱:MFCCs
  • 定義:組成梅爾頻率倒譜的係數
簡介,MFCC的原理,噪聲的敏感性,

簡介

在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。
梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音信號有更好的表示。例如在音訊壓縮中。
梅爾頻率倒譜係數(MFCC)廣泛被套用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出,並在其後持續是最先進的技術之一。在MFCC之前,線性預測係數(LPCS)和線性預測倒譜係數(LPCCs)是自動語音識別的的主流方法。

MFCC通常有以下之過程:
  1. 將一段語音信號分解為多個訊框。
  2. 將語音信號預強化,通過一個高通濾波器
  3. 進行傅立葉變換,將信號變換至頻域。
  4. 將每個訊框獲得的頻譜通過梅爾濾波器(三角重疊視窗),得到梅爾刻度
  5. 在每個梅爾刻度上提取對數能量。
  6. 對上面獲得的結果進行離散傅立葉反變換,變換到倒頻譜域。
  7. MFCC就是這個倒頻譜圖的幅度(amplitudes)。一般使用12個係數,與訊框能量疊加得13維的係數。

MFCC的原理

聲音信號是連續變化的,為了將連續變化信號簡化,我們假設在一個短時間尺度內,音頻信號不發生改變。因此將信號以多個採樣點集合成一個單位,稱為'''訊框'''。一個訊框多為20-40毫秒,如果訊框長度更短,那每個訊框內的採樣點將不足以做出可靠的頻譜計算,但若長度太長,則每個訊框信號會變化太大。
預強化的目的就是為了消除發聲過程中,聲帶和嘴唇造成的效應,來補償語音信號受到發音系統所壓抑的高頻部分。並且能突顯高頻的共振峰。
由於信號在時域上的變化通常很難看出信號的特性,所以通常透過傅立葉變換將它變換成頻域上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。
由於能量頻譜中還存在大量的無用訊息,尤其人耳無法分辨高頻的頻率變化,因此讓頻譜通過梅爾濾波器。梅爾濾波器,也就是一組20個非線性分布的三角帶通濾波器(Triangular Bandpass Filters),能求得每一個濾波器輸出的對數能量。必須注意的是:這 20 個三角帶通濾波器在'''梅爾刻度'''的頻率上是平均分布的。 梅爾頻率代表一般人耳對於頻率的感受度,由此也可以看出人耳對於頻率 f 的感受是呈對數變化的。

噪聲的敏感性

MFCC特徵在加性噪聲的情況下並不穩定,因此在語音識別系統中通常要對其進行歸一化處理(normalise)以降低噪聲的影響。一些研究人員對MFCC算法進行修改以提升其魯棒性,如在進行DCT之前將log-mel-amplitudes提升到一個合適的能量(2到3之間),以此來降低低能量成分的影響。

相關詞條

熱門詞條

聯絡我們