貝葉斯分類

貝葉斯分類

貝葉斯分類技術在眾多分類技術中占有重要地位,也屬於統計學分類的範疇,是一種非規則的分類方法,貝葉斯分類技術通過對已分類的樣本子集進行訓練,學習歸納出分類函式(對離散變數的預測稱作分類,對連續變數的分類稱為回歸),利用訓練得到的分類器實現對未分類數據的分類。通過對比分析不同的分類算法,發現樸素貝葉斯分類算法(Naive Bayes),一種簡單的貝葉斯分類算法,其套用效果比神經網路分類算法和判定樹分類算法還要好,特別是待分類數據量非常大時,貝葉斯分類方法相較其他分類算法具有高準確率。

基本介紹

  • 中文名:貝葉斯分類
  • 外文名:Bayesian classification
  • 學科:統計學,廣泛套用於其他學科
  • 屬性:分類方法
  • 特點:用機率來表示所有形式的不確定性
背景介紹,貝葉斯分類的原理,貝葉斯分類特點,

背景介紹

數據分類(Classification)在商業套用上具有重要意義,是數據挖掘中非常重要的一項研究內容。通常數據分類的做法是,基於樣本數據先訓練構建分類函式或者分類模型(也稱為分類器),該分類器的具有將待分類數據項映射到某一特點類別的功能,數據分類和回歸分析都可用於預測,預測是指從基於樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測。
貝葉斯分類是統計學的分類方法,其分析方法的特點是使用機率來表示所有形式的不確定性,學習或推理都要用機率規則來實現。

貝葉斯分類的原理

基於統計學的貝葉斯分類方法以貝葉斯理論為基礎,通過求解後驗機率分布,預測樣本屬於某一類別的機率。貝葉斯公式可寫成如下形式:
P(y|x)=P(x|y)*P(A)*P(y)/(P(x) (4-1)其中,P(y I x)為後驗機率分布,P(y)為先驗分布,P(x)通常為常數。
貝葉斯分類
為了簡化運算,樸素貝葉斯分類算法假定任意屬性對類別的影響與其他屬性對類別的影響無關,這種假定稱為類條件獨立樸素假定。圖4-3展示了朴樹貝葉斯分類中屬性和類之間的關係,如圖4-3所示,C表示待分類別,A1, ..., A4表示樣本屬性,箭頭表示屬性變數和類別變數之間的依存關係,從圖中可以看出,在樸素貝葉斯分類模型中,樣本屬性Ai和Aj ( i不等於j)之間不存在相互依賴關係,他們僅與節點類C有關。
已知樣本數據x =< x1 , . .. , xn >(樣本數據x共有n種屬性,其中xi表示第i個屬性Ai的值)屬於任意類,(y∈ { c1,,...,ck})(總共k個類別,cj表示第j個類)的機率。給定一個未分類的數據樣本X,套用樸素貝葉斯分類算法,預測樣本數據X屬於具有最高后驗機率的類,未知樣本X屬於類別c;的條件是,若且唯若
P(ciIX)>P (cjIX),1≤j≤k, (4-2)
因此,將最大化後驗機率P(ciIX)或者其對數形式稱為最大後驗假定,記為arg maxy P( y IX)。
根據全機率公式,對於任意類別ci。
在任意一次分類中取值均相等,也就是說,數據樣本X產生的機率相同(P(X)定義為常數),因此,可以將後驗機率P(yl X)表示成機率乘積正比關係式:
P(yIX)∝P(XIy)*P(y)
因此,求取arg maxyP( y IX)相當於求取arg maxyP(XIy);而arg maxyP(XIy)的計算要相對容易很多,所以,在實際套用中通常根據式(4-4 )來求解後驗機率。
根據樸素貝葉斯分類算法的類條件獨立假設,給定樣本數據的類標號,各屬性值xi之間相互條件獨立,彼此不存在相互依賴關係。
也就是說,為對未知樣本X分類,對每個類ci計算P(xl ci)P(ci);若且唯若P(Xlci)P(ci)>P(Xlcj)P(cj),1≤j≤m,j≠i (4-7)
定義樣本X屬於類別ci,即X被指派到P(X I ci)P(ci)最大的類ci。

貝葉斯分類特點

貝葉斯分類是統計學方法,它主要是基於貝葉斯定理。通過計算給定實例屬於一個特定類的機率來對給定實例進行分類。貝葉斯分類具有以下特點:
(1)貝葉斯分類不把一個實例絕對的指派給某一種分類,而是通過計算得到實例屬於某一分類的機率,具有最大機率的類就是該實例所屬的分類;
(2)一般情況下在貝葉斯分類中所有屬性都潛在的對分類結果發揮作用,能夠使所有的屬性都參與到分類中;
(3)貝葉斯分類實例的屬性可以是離散的、連續的,也可以是混合的。
貝葉斯方法因其在理論上給出了最小化誤差的最優解決方法而被廣泛套用於分類問題。在貝葉斯方法的基礎上,提出了貝葉斯網路((Bayesian Network, BN)方法。樸素貝葉斯分類就是假定一個屬性對於給定分類的影響獨立於其他屬性。這一假定被稱作條件獨立,對實力屬性的這種假設大大簡化了分類所需的計算量。大量的研究結果表明,雖然BN算法對屬性結點之間的連線結構進行了限制,但是樸素貝葉斯的分類器的分類性能優於標準的貝葉斯網路分類器。

相關詞條

熱門詞條

聯絡我們