樸素貝葉斯分類器

簡介

樸素貝葉斯分類是一種十分簡單的分類算法，叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素。樸素貝葉斯的思想基礎是這樣的：對於給出的待分類項，求解在此項出現的條件下各個類別出現的機率，哪個最大，就認為此待分類項屬於哪個類別。舉個例子，如果一種水果其具有紅，圓，直徑大概3英寸等特徵，該水果可以被判定為是蘋果。儘管這些特徵相互依賴或者有些特徵由其他特徵決定，然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的機率分布上獨立的。對於某些類型的機率模型，在監督式學習的樣本集中能獲取得非常好的分類效果。在許多實際套用中，樸素貝葉斯模型參數估計使用最大似然估計方法；換而言之，在不用到貝葉斯機率或者任何貝葉斯模型的情況下，樸素貝葉斯模型也能奏效。

儘管是帶著這些樸素思想和過於簡單化的假設，但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠獲取相當好的效果。2004年，一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器獲取看上去不可思議的分類效果的若干理論上的原因。儘管如此，2006年有一篇文章詳細比較了各種分類方法，發現更新的方法（如決策樹和隨機森林）的性能超過了貝葉斯分類器。樸素貝葉斯分類器的一個優勢在於只需要根據少量的訓練數據估計出必要的參數（變數的均值和方差）。由於變數獨立假設，只需要估計各個變數的方法，而不需要確定整個協方差矩陣。

發展

樸素貝葉斯自20世紀50年代已廣泛研究。在20世紀60年代初就以另外一個名稱引入到文本信息檢索界中，並仍然是文本分類的一種熱門（基準）方法，文本分類是以詞頻為特徵判斷檔案所屬類別或其他（如垃圾郵件、合法性、體育或政治等等）的問題。通過適當的預處理，它可以與這個領域更先進的方法（包括支持向量機）相競爭。它在自動醫療診斷中也有套用。

樸素貝葉斯分類器是高度可擴展的，因此需要數量與學習問題中的變數（特徵/預測器）成線性關係的參數。最大似然訓練可以通過評估一個封閉形式的表達式來完成，只需花費線性時間，而不需要其他很多類型的分類器所使用的費時的疊代逼近。在統計學和計算機科學文獻中，樸素貝葉斯模型有各種名稱，包括簡單貝葉斯和獨立貝葉斯。所有這些名稱都參考了貝葉斯定理在該分類器的決策規則中的使用，但樸素貝葉斯不（一定）用到貝葉斯方法；《Russell和Norvig》提到“‘樸素貝葉斯’有時被稱為貝葉斯分類器，這個馬虎的使用促使真正的貝葉斯論者稱之為傻瓜貝葉斯模型。”

貝葉斯方法

分類器的構造方法很多，常見的有貝葉斯方法、決策樹方法、基於實例的學習方法、人工神經網路方法、支持向量機方法、基於遺傳算法的方法、基於粗糙集的方法、基於模糊集的方法等等。其中，貝葉斯方法正以其獨特的不確定性知識表達形式、豐富的機率表達能力、綜合先驗知識的增量學習特性等成為眾多方法中最為引人注目的焦點之一。分類是一個兩步過程。第一步，用已知的實例集構建分類器。這一步一般發生訓練階段或叫學習階段。用來構建分類器的已知實例集稱作訓練實例集，訓練實例集中的每一個實例稱作訓練實例。由於訓練實例的類標記是已知的，所以分類器的構建過程是有導師的學習過程。相比較而言，在無導師的學習過程中，訓練實例的類標記是未知的，有的時候甚至連要學習的類別數也可能是未知的，比如聚類。

樸素貝葉斯分類器

基本介紹

簡介

發展

貝葉斯方法

最大似然估計

相關詞條

熱門詞條