代理損失函式

定義

在二元分類問題中，假如我們有n個訓練樣本{(X1,y1),(X2,y2),⋯,(Xn,yn)}，其中yi∈{0,1}。為了量化一個模型的好壞，我們通常使用一些損失函式，損失函式越小，模型越好。最常用的損失函式就是零一損失函式

。

對於一損失函式l，目標是要找到一個最優的分類器h，使得這個分類器在測試樣本上的期望損失最小。數學式子表達是：

理論上，我們是可以直接對上式進行最佳化，得到最優的分類器h。然而這個過程是非常困難的（甚至不可行）。其一是因為X×y的機率分布是未知的，所以計算loss的期望是不可行的。另外一個難處是這個期望值很難進行最佳化，因為這個損失函式是非連續的，這個最佳化問題本質是NP-Hard的。舉個例子來說，假定

，我們希望找一個線性分類器

使得loss的期望最小化。所以也就是求解

。關於

以及loss的圖像大致如下：

這個函式顯然是非連續的。常用的最佳化方法，比如梯度下降，對此都失效了。正因此，可以考慮一個與零一損失相接近的函式，作為零一損失的替身。這個替身就稱作代理損失函式（surrogate loss function）。

如果最最佳化代理損失函式的同時也最最佳化了原本的損失函式，就稱校對性(calibration)或者一致性(consistency)。這個性質與所選擇的代理損失函式相關。一個重要的定理是，如果代理損失函式是凸函式，並且在0點可導，其導數小於0，那么它一定是具有一致性的。

零一損失函式與logloss，hinge loss，squared hinge loss以及modified Huber loss的聯繫如下圖：