高維數據挖掘

定義

數據挖掘指的是從大量的數據中提取隱含的、事先未知的、並且潛在有用的知識的技術。數據挖掘的廣義觀點：數據挖掘就是從存放在資料庫，數據倉庫或其他信息庫中的大量的數據中“挖掘”有趣知識的過程。它是計算機技術研究中的一個很有套用價值的新領域，融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術，已成為國際上資料庫和信息決策領域中最前沿的研究方向之一，引起了學術界和工業界的廣泛關注。

特點

高維數據挖掘是基於高維度的一種數據挖掘，它和傳統的數據挖掘最主要的區別在於它的高維度。高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易，導致資料庫規模越來越大、複雜性越來越高，如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等，它們的維度（屬性）通常可以達到成百上千維，甚至更高。

由於高維數據存在的普遍性，使得對高維數據挖掘的研究有著非常重要的意義。但由於“維災”的影響，也使得高維數據挖掘變得異常地困難，必須採用一些特殊的手段進行處理。隨著數據維數的升高，高維索引結構的性能迅速下降，在低維空間中，我們經常採用歐式距離作為數據之間的相似性度量，但在高維空間中很多情況下這種相似性的概念不復存在，這就給高維數據挖掘帶來了很嚴峻的考驗，一方面引起基於索引結構的數據挖掘算法的性能下降，另一方面很多基於全空間距離函式的挖掘方法也會失效。解決的方法可以有以下幾種：可以通過降維將數據從高維降到低維，然後用低維數據的處理辦法進行處理；對算法效率下降問題可以通過設計更為有效的索引結構、採用增量算法及並行算法等來提高算法的性能；對失效的問題通過重新定義使其獲得新生。

高維數據挖掘

定義

特點

相關詞條

熱門詞條