聚類分析

區別

聚類與分類的不同在於，聚類所要求劃分的類是未知的。

聚類是將數據分類到不同的類或者簇這樣的一個過程，所以同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性。

從統計學的觀點看，聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟體包中，如SPSS、SAS等。

從機器學習的角度講，簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同，無監督學習不依賴預先定義的類或帶類標記的訓練實例，需要由聚類學習算法自動確定標記，而分類學習的實例或數據對象有類別標記。聚類是觀察式學習，而不是示例式的學習。

聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數據出發，自動進行分類。聚類分析所使用方法的不同，常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析，所得到的聚類數未必一致。

從實際套用的角度看，聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況，觀察每一簇數據的特徵，集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法（如分類和定性歸納算法）的預處理步驟。

依據研究對象（樣品或指標）的特徵，對其進行分類的方法，減少研究對象的數目。

各類事物缺乏可靠的歷史資料，無法確定共有多少類別，目的是將性質相近事物歸入一類。

各指標之間具有一定的相關關係。

聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析區別於分類分析(classification analysis) ，後者是有監督的學習。

變數類型：定類變數、定量（離散和連續）變數

1,層次聚類（Hierarchical Clustering）

2. 非層次聚類

劃分聚類、譜聚類

聚類方法特徵：