非監督式學習

簡述

由於在很多實際套用中，缺少所研究對象類別形成過程的知識，或者為了判斷各個樣本(模式)所屬的類別需要很大的工作量(例如衛星遙感照片上各像元所對應的地面情況)，因此往往只能用無類別標答的樣本集進形學習。通過無監督式學習，把樣本集劃分為若干個子集(類別)，從而直接解決看樣本的分類問題，或者把它作為訓練樣本集，再用監督學習方法進行分類器設計。

思路

在非監督學習中，數據並不會被特別標識，學習模型是為了推斷出數據的一些內在結構。非監督學習一般有兩種思路：

1)第一種思路是在指導Agent時不為其指定明確的分類，而是在成功時採用某種形式的激勵制度。需要注意的是，這類訓練通常會被置於決策問題的框架里，因為它的目標不是產生一個分類系統，而是做出最大回報的決定，這類學習往往被稱為強化學習。

2)第二種思路稱為聚合(Clustering)，這類學習類型的目標不是讓效用函式最大化，而是找到訓練數據中的近似點，本節將重點介紹此類非監督學習思路。

第二種思路的非監督學習常見的套用場景包括關聯規則的學習及聚類等。常見算法包括Apriori、K-Means、EM等。

方法

無監督學習主要有以下兩大類方法：

(1)基於機率密度函式估計的直接方法

如果給定的樣本集是由各類都服從高斯分布的樣本混合在一起組成的，在類別數已知的條件下，可以用最大似然法或Bayes估計法，從混合的機率密度函式中分解出各個類的機率密度函式，然後用Bayes決策方法設計模式分類器。在非高斯機率分布情況下，只要各類的機率密度函式的形式已知，且分解是惟一的，都可以用上述方法實現分類器設計。在沒有任何機率分布先驗知識的情況下，可以把特徵空間劃分為著若干個隊域，使每個區域都具有單峰的分布性質，每一個區域就相當於一個類別，這樣作的基礎是緊緻性假設。已經合多種算法實現這種隊域的劃分。

(2)基於樣本間相似度呈的間接聚類方法

如果用樣本在特徵窄問中相互問的距離來度量樣本間的相似度，就可以設計出某種評價分類質量的準則函式，通過數學方法把特徵空間劃分為與各個類別相對應的區域，也就是通常所說的聚類分析。算法和非疊代的分級聚類算法。前者是給定某個樣本集的初始劃分，計算反映聚類質量的準則隔數值，如果把某個樣本從原來所屬的類別改屬為另一個類別能使準則函式值向好的方向改進，則改變這個樣本原來的類別為新的類別(新的劃分)再對其他樣本進行類似的運算這樣反覆疊代，直到沒有一個樣本類別的改變能改進準則函式值，即已經達到了準則函式的最優值。這一類算法中著名的有C-均值算法和ISODATA算法，C-均值算法要求類別數預先給定，並把各樣本到所屬類別樣本子集的均值向量的距離平方和作為評價聚類質量的準則函式。ISODATA算法可以自動地調整類別數，並可對各類樣本的某些統計性質(如樣本數餐、樣本特徵的標準偏差等)作些限制。非疊代的分級聚類算法：第一步把每一個樣本都看成一個類，給定兩類樣本間相似度計算方法，計算類與類之間的相似度。第二步把其中相似度最大的兩個類合併為一個類，再計算新的類與類之間的相似度。第三步再把其中相似把所有的樣本都合為一類為止。根據問題的性質以及各級的相似度大小，就可以確定合理的聚類差別數和各類所包含的樣本，在套用分級聚類算法時要選擇適當的類與類間相似度汁算力’法，不同的計算方法會導致完全不同的聚類結果。

非監督式學習

基本介紹

簡述

思路

方法

相關詞條

熱門詞條