數據歸約

途徑

數據歸約主要有兩個途徑：屬性選擇和數據採樣，分別針對原始數據集中的屬性和記錄。

假定在公司的數據倉庫選擇了數據，用於分析。這樣數據集將非常大。在海量數據上進行複雜的數據分析扣挖掘將需要很長時間，使得這種分析不現實或不可行。

數據歸約技術可以用來得到數據集的歸約表示，它雖然小，但仍大致保持原數據的完整性。這樣，在歸約後的數據集上挖掘將更有效，並產生相同(或幾乎相同)的分析結果。

分類

1、特徵歸約

特徵歸約是從原有的特徵中刪除不重要或不相關的特徵，或者通過對特徵進行重組來減少特徵的個數。其原則是在保留、甚至提高原有判別能力的同時減少特徵向量的維度。特徵歸約算法的輸入是一組特徵，輸出是它的一個子集。在領域知識缺乏的情況下進行特徵歸約時一般包括3個步驟:

(1)搜尋過程:在特徵空間中搜尋特徵子集，每個子集稱為一個狀態由選中的特徵構成。

(2)評估過程:輸入一個狀態，通過評估函式或預先設定的閾值輸出一個評估值搜尋算法的目的是使評估值達到最優。

(3)分類過程:使用最終的特徵集完成最後的算法。

特徵歸約處理的效果：

（1）更少的數據，提高挖掘效率

（2）更高的數據挖掘處理精度

（3）簡單的數據挖掘處理結果

（4）更少的特徵。

2、樣本歸約

樣本都是已知的，通常數目很大，質量或高或低，或者有或者沒有關於實際問題的先驗知識。

樣本歸約就是從數據集中選出一個有代表性的樣本的子集。子集大小的確定要考慮計算成本、存儲要求、估計量的精度以及其它一些與算法和數據特性有關的因素。

初始數據集中最大和最關鍵的維度數就是樣本的數目，也就是數據表中的記錄數。數據挖掘處理的初始數據集描述了一個極大的總體，對數據的分析只基於樣本的一個子集。獲得數據的子集後，用它來提供整個數據集的一些信息，這個子集通常叫做估計量，它的質量依賴於所選子集中的元素。取樣過程總會造成取樣誤差，取樣誤差對所有的方法和策略來講都是固有的、不可避免的，當子集的規模變大時，取樣誤差一般會降低。一個完整的數據集在理論上是不存在取樣誤差的。與針對整個數據集的數據挖掘比較起來，樣本歸約具有以下一個或多個優點:減少成本、速度更快、範圍更廣，有時甚至能獲得更高的精度。

3、特徵值歸約

特徵值歸約是特徵值離散化技術，它將連續型特徵的值離散化，使之成為少量的區間，每個區間映射到一個離散符號。這種技術的好處在於簡化了數據描述，並易於理解數據和最終的挖掘結果。

數據歸約

基本介紹

途徑

分類

基本知識

算法特徵

相關詞條

熱門詞條