決策樹算法

簡介

決策樹(decision tree)是一種基本的分類與回歸方法。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對實例進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間與類空間上的條件機率分布。

其主要優點是模型具有可讀性，分類速度快。學習時，利用訓練數據，根據損失函式最小化的原則建立決策樹模型。預測時，對新的數據，利用決策樹模型進行分類。

決策樹學習通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪。

決策樹學習

目標：根據給定的訓練數據集構建一個決策樹模型，使它能夠對實例進行正確的分類。決策樹學習本質上是從訓練數據集中歸納出一組分類規則。能對訓練數據進行正確分類的決策樹可能有多個，可能沒有。在選擇決策樹時，應選擇一個與訓練數據矛盾較小的決策樹，同時具有很好的泛化能力；而且選擇的條件機率模型應該不僅對訓練數據有很好的擬合，而且對未知數據有很好的預測。

損失函式：通常是正則化的極大似然函式

策略：是以損失函式為目標函式的最小化

因為從所有可能的決策樹中選取最優決策樹是NP完全問題，所以現實中決策樹學習通常採用啟發式方法，近似求解這一最最佳化問題，得到的決策樹是次最優(sub-optimal)的。

決策樹學習的算法通常是一個遞歸地選擇最優特徵，並根據該特徵對訓練數據進行分割，使得對各個子數據集有一個最好的分類的過程。包含特徵選擇、決策樹的生成和決策樹的剪枝過程。

剪枝：

目的：將樹變得更簡單，從而使它具有更好的泛化能力。

步驟：去掉過於細分的葉結點，使其回退到父結點，甚至更高的結點，然後將父結點或更高的結點改為新的葉結點。

決策樹的生成對應模型的局部選擇，決策樹的剪枝對應於模型的全局選擇。決策樹的生成只考慮局部最優，決策樹的剪枝則考慮全局最優。

特徵選擇：

如果特徵數量很多，在決策樹學習開始時對特徵進行選擇，只留下對訓練數據有足夠分類能力的特徵。（例如把名字不作為一個特徵進行選擇）

決策樹算法

基本介紹

簡介

決策樹學習

典型算法

基本思想

構造方法

分類與回歸樹模型

相關詞條

熱門詞條