稀疏數據

定義

稀疏數據是指，數據框中絕大多數數值缺失或者為零的數據。在現代社會中，隨著信息的爆炸式增長，數據量也呈現出爆炸式增長，數據形式也越來越多樣化。在數據挖掘領域，常常要面對海量的複雜型數據。其中，稀疏數據這一特殊形式的數據正在越來越為人們所注意。
稀疏數據絕對不是無用數據，只不過是信息不完全，通過適當的手段是可以挖掘出大量有用信息的。然而在一些情況下，數據的稀疏程度甚至會達到 95%以上，這使得傳統的統計方法不適於處理此類數據。

來源

稀疏數據的來源與產生原因可以有很多種。目前大致歸結起來，主要可以概括為以下幾個種類：

由於調查不當產生的稀疏數據

這種稀疏數據常見於問卷調查和電話調查中，如果問卷問題設定不當，過於繁雜難懂，就會導致被調查者產生厭煩心理，草草回答幾個問題了事。然而已經回答的問題又是有效問卷的一部分，不能做遺棄處理，假若這種問卷大量出現，那么就會出現稀疏數據。

由於天然限制產生的稀疏數據

這種稀疏數據常見於電子商務領域，例如淘寶網、沃爾瑪等網購網站或超市中。由於每個客戶客觀上不可能把所有商品購買一遍，所以他們的客戶購買記錄必然只是對海量商品中一小部分的記錄。這樣，客戶購買記錄必然是一個稀疏數據。

文本挖掘中產生的稀疏數據

在文本挖掘領域，為了比較幾篇文章是否屬於同一主題，常用的算法是首先選定一批關鍵字，通過不同文章中這些關鍵字出現的頻率來進行判斷。而這一批關鍵字常常會有成千上萬個，而每篇文章基本只包含其中幾十到幾百個關鍵字，那么由此產生的數據也就是一個稀疏數據了。

醫學造影成像領域

現代醫學常常要藉助 CT、B 超、核磁等手段造影成像，作為判斷病情的重要手段。其中 CT 成像是由若干射線源與接收器來採集數據，在實際套用中，受到設備、病人條件等限制，常常不能做到全形度掃描，故而在成像算法上也常常要面對稀疏數據。

稀疏聚類

目前針對稀疏數據的另一個研究方向就是對稀疏數據的聚類與降維。稀疏數據不同於一般數據，它的維度常常極其巨大，並且由於大量的缺失值的存在，使得數據信息極端不完整，常見的降維方法例如主成分、因子分析等無法在此上套用。

針對這一情況，很多學者開始研究探索一些其他的方法來解決這一問題。謝寧新在他發表的文章中，提出利用二進制數來計算稀疏相似度，進而進行聚類。他首先引用了稀疏特徵的二進制碼概念，通過設定一個閾值 b，將稀疏矩陣中大於 b 的數用1 表示，小於 b 的用 0 表示，將稀疏矩陣轉換成了二進制碼矩陣。然後採用二進制數的布爾 AND 運算，計算 u1AND u2，其中 u1和 u2分別表示兩個樣本的二進制碼序列。AND 具體的運算規則是，若兩條序列中，同一位置的二進制碼同為 1，則返回數值 1；否則返回數值 0。最後計算 u1AND u2中數字 1 的個數，將之作為兩樣本的相關性。並進而將相關性顯著大的樣本聚為一類。

稀疏數據

基本介紹

定義

來源

稀疏聚類

恢復問題

套用場景

相關詞條

熱門詞條