數據歸約

數據歸約是指在儘可能保持數據原貌的前提下,最大限度地精簡數據量(完成該任務的必要前提是理解挖掘任務和熟悉數據本身內容)。

數據歸約主要有兩個途徑:屬性選擇和數據採樣,分別針對原始數據集中的屬性和記錄。

假定在公司數據倉庫選擇了數據,用於分析。這樣數據集將非常大。在海量數據上進行複雜的數據分析扣挖掘將需要很長時間,使得這種分析不現實或不可行。

數據歸約技術可以用來得到數據集的歸約表示,它雖然小,但仍大致保持原數據的完整性。這樣,在歸約後的數據集上挖掘將更有效,並產生相同(或幾乎相同)的分析結果。

基本介紹

  • 中文名:數據歸約
  • 外文名:Reduce
  • 領域:大數據
途徑,分類,基本知識,算法特徵,

途徑

數據歸約主要有兩個途徑:屬性選擇和數據採樣,分別針對原始數據集中的屬性和記錄。
假定在公司數據倉庫選擇了數據,用於分析。這樣數據集將非常大。在海量數據上進行複雜的數據分析扣挖掘將需要很長時間,使得這種分析不現實或不可行。
數據歸約技術可以用來得到數據集的歸約表示,它雖然小,但仍大致保持原數據的完整性。這樣,在歸約後的數據集上挖掘將更有效,並產生相同(或幾乎相同)的分析結果。

分類

1、特徵歸約
特徵歸約是從原有的特徵中刪除不重要或不相關的特徵,或者通過對特徵進行重組來減少特徵的個數。其原則是在保留、甚至提高原有判別能力的
同時減少特徵向量的維度。特徵歸約算法的輸入是一組特徵,輸出是它的一個子集。在領域知識缺乏的情況下進行特徵歸約時一般包括3個步驟:
(1)搜尋過程:在特徵空間中搜尋特徵子集,每個子集稱為一個狀態由選中的特徵構成。
(2)評估過程:輸入一個狀態,通過評估函式或預先設定的閾值輸出一個評估值搜尋算法的目的是使評估值達到最優。
(3)分類過程:使用最終的特徵集完成最後的算法。
特徵歸約處理的效果:
(1)更少的數據,提高挖掘效率
(2)更高的數據挖掘處理精度
(3)簡單的數據挖掘處理結果
(4)更少的特徵。
2、樣本歸約
樣本都是已知的,通常數目很大,質量或高或低,或者有或者沒有關於實際問題的先驗知識。
樣本歸約就是從數據集中選出一個有代表性的樣本的子集。子集大小的確定要考慮計算成本、存儲要求、估計量的精度以及其它一些與算法和數據特性有關的因素。
初始數據集中最大和最關鍵的維度數就是樣本的數目,也就是數據表中的記錄數。數據挖掘處理的初始數據集描述了一個極大的總體,對數據的分析只基於樣本的一個子集。獲得數據的子集後,用它來提供整個數據集的一些信息,這個子集通常叫做估計量,它的質量依賴於所選子集中的元素。取樣過程總會造成取樣誤差,取樣誤差對所有的方法和策略來講都是固有的、不可避免的,當子集的規模變大時,取樣誤差一般會降低。一個完整的數據集在理論上是不存在取樣誤差的。與針對整個數據集的數據挖掘比較起來,樣本歸約具有以下一個或多個優點:減少成本、速度更快、範圍更廣,有時甚至能獲得更高的精度。
3、特徵值歸約
特徵值歸約是特徵值離散化技術,它將連續型特徵的值離散化,使之成為少量的區間,每個區間映射到一個離散符號。這種技術的好處在於簡化了數據描述,並易於理解數據和最終的挖掘結果。
特徵值歸約可以是有參的,也可以是無參的。有參方法使用一個模型來評估數據,只需存放參數,而不需要存放實際數據;有參的特徵值歸約有以下兩種:
(1)回歸:線性回歸和多元回歸;
(2)對數線性模型:近似離散多維機率分布。
無參的特徵值歸約有3種:
(1)直方圖:採用分箱近似數據分布,其中V-最優和MaxDiff直方圖是最精確和最實用的;
(2)聚類:將數據元組視為對象,將對象劃分為群或聚類,使得在一個聚類中的對象“類似”而與其他聚類中的對象“不類似”在數據歸約時用數據的聚類代替實際數據;
(3)選樣:用數據的較小隨機樣本表示大的數據集,如簡單選擇n個樣本(類似樣本歸約)、聚類選樣和分層選樣等。

基本知識

對於小型或中型數據集,一般的數據預處理步驟已經足夠。但對真正大型數據集來講,在套用數據挖掘技術以前,更可能採取一個中間的、額外的步驟-數據歸約。本步驟中簡化數據的主題是維歸約,主要問題是是否可在沒有犧牲成果質量的前提下,丟棄這些已準備和預處理的數據,能否在適量的時間和空間裡檢查已準備的數據和已建立的子集。
對數據的描述,特徵的挑選,歸約或轉換是決定數據挖掘方案質量的最重要問題。在實踐中,特徵的數量可達到數百,如果我們只需要上百條樣本用於分析,就需要進行維歸約,以挖掘出可靠的模型;另一方面,高維度引起的數據超負,會使一些數據挖掘算法不實用,唯一的方法也就是進行維歸約。預處理數據集的3個主要維度通常以平面檔案的形式出現:列(特徵),行(樣本)和特徵的值,數據歸約過程也就是三個基本操作:刪除列,刪除行,減少列中的值。
在進行數據挖掘準備時進行標準數據歸約操作,我們需要知道從這些操作中我們會得到和失去什麼,全面的比較和分析涉及到如下幾個方面的參數:
(1)計算時間:較簡單的數據,即經過數據歸約後的結果,可減少數據挖掘消耗的時間。
(2)預測/描述精度:估量了數據歸納和概括為模型的好壞。
(3)數據挖掘模型的描述:簡單的描述通常來自數據歸約,這樣模型能得到更好理解。

算法特徵

(1)可測性
(2)可識別性
(3)單調性
(4)一致性
(5)收益增減
(6)中斷性
(7)優先權
和生成歸約後的特徵集有關的標準任務有兩個:
(1)特徵選擇:基於套用領域的知識和挖掘目標,分析者可以選擇初始數據集中的一個特徵子集。特徵排列算法,最小子集算法
(2)特徵構成:特徵構成依賴於套用知識。
特徵選擇的目標是要找出特徵的一個子集,此子集在數據挖掘的性能上比得上整個特徵集。特徵選擇的一種可行技術是基於平均值和方差的比較,此方法的主要缺點是特徵的分布未知。最優方法的近似:
(1)只對有前景的特徵子集進行檢查
(2)用計算簡單的距離度量替換誤差度量
(3)只根據大量數據的子集選擇特徵。

相關詞條

熱門詞條

聯絡我們