過擬合

過擬合

過擬合是指為了得到一致假設而使假設變得過度嚴格。避免過擬合是分類器設計中的一個核心任務。通常採用增大數據量和測試樣本集的方法對分類器性能進行評價。

基本介紹

  • 中文名:過擬合
  • 外文名:Overfitting
  • 使用領域:人工智慧/機器學習/數學
概念,定義,判斷方法,圖例,常見原因,解決方法,數學解釋,

概念

為了得到一致假設而使假設變得過度嚴格稱為過擬合。

定義

給定一個假設空間H,一個假設h屬於H,如果存在其他的假設h’屬於H,使得在訓練樣例上h的錯誤率比h’小,但在整個實例分布上h’比h的錯誤率小,那么就說假設h過度擬合訓練數據。

判斷方法

一個假設在訓練數據上能夠獲得比其他假設更好的擬合, 但是在訓練數據外的數據集上卻不能很好地擬合數據,此時認為這個假設出現了過擬合的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。

圖例

例:如圖所示為不同的分類方式(分類器
可以看出在a中雖然完全的擬合了樣本數據,但對於b中的測試數據分類準確度很差。而c雖然沒有完全擬合樣本數據,但在d中對於測試數據的分類準確度卻很高。過擬合問題往往是由於訓練數據少等原因造成的。
a,b過擬合 c,d不過擬合a,b過擬合 c,d不過擬合

常見原因

(1)建模樣本選取有誤,如樣本數量太少,選樣方法錯誤,樣本標籤錯誤等,導致選取的樣本數據不足以代表預定的分類規則;
(2)樣本噪音干擾過大,使得機器將部分噪音認為是特徵從而擾亂了預設的分類規則;
(3)假設的模型無法合理存在,或者說是假設成立的條件實際並不成立;
(4)參數太多,模型複雜度過高;
(5)對於決策樹模型,如果我們對於其生長沒有合理的限制,其自由生長有可能使節點只包含單純的事件數據(event)或非事件數據(no event),使其雖然可以完美匹配(擬合)訓練數據,但是無法適應其他數據集。
(6)對於神經網路模型:a)對樣本數據可能存在分類決策面不唯一,隨著學習的進行,,BP算法使權值可能收斂過於複雜的決策面;b)權值學習疊代次數足夠多(Overtraining),擬合了訓練數據中的噪聲和訓練樣例中沒有代表性的特徵。

解決方法

(1)在神經網路模型中,可使用權值衰減的方法,即每次疊代過程中以某個小因子降低每個權值。
(2)選取合適的停止訓練標準,使對機器的訓練在合適的程度;
(3)保留驗證數據集,對訓練成果進行驗證;
(4)獲取額外數據進行交叉驗證;
(5)正則化,即在進行目標函式或代價函式最佳化時,在目標函式或代價函式後面加上一個正則項,一般有L1正則與L2正則等。

數學解釋

首先,分類器本質上是一個數學最佳化問題,用最常見的最小二乘擬合舉例,最佳化目標如下:
「對於所有樣本點,擬合函式在樣本點處的函式值和樣本點處實際的函式值之差的平方和最小」
顯然這是一個均方誤差最小(MSE)準則。如果擬合函式足夠好,那么這個函式值為零。
現在我們換一種思路,假使一定要讓MSE準則為零,可以得到:
1、線性函式只能表達直線上的樣本點,因此樣本點不在同一條直線上的時候,上面的MSE準則函式值一定嚴格大於零。因此想讓這個函式等於零,樣本點至多不超過兩個(暫不考慮解不存在的奇異情況);
2、對於任意三個點,使用二次函式能夠保證MSE準則等於零(包括三點共線的退化情況);
......
n、對於任意多個點,總能找到一個足夠高次數的多項式,使得對於所有點的MSE準則函式為零。
我們稱上述擬合效果為一個給定階次多項式的「表達能力」。
實際上在擬合過程中,多項式的表達能力並非越強越好。因為MSE準則只關注樣本點處的擬合誤差,因此非常強的表達能力會使得樣本點之外的函式值遠遠偏離期望的目標,反而降低分類器的性能。

相關詞條

熱門詞條

聯絡我們