數據清理

簡介

該進程必須解決不正確的用來自多個在線上事務處理(OLTP) 系統的數據生成數據倉庫進程的一部分。拼寫、兩個系統之間衝突的拼寫規則和衝突的數據（如對於相同的部分具有兩個編號）之類的錯誤。

編碼或把資料錄入時的錯誤，會威脅到測量的效度。數據清理主要解決數據檔案建立中的人為誤差，以及數據檔案中一些對統計分析結果影響較大的特殊數值。常用的數據清理方法包括可編碼式清理和聯列式清理。

數據清理是一個過程，它包括兩步：第一步是偏差檢驗，第二步是數據變換。同時這兩步疊代進行。

數據清理工作的目的是不讓有錯誤或有問題的數據進入運算過程。數據清理工作一般在計算機的幫助下完成。在錄入的過程中，無論組織安排的多么仔細，工作多么認真，還是會或多或少出現一些差錯，如原始數據本身存在問題、編碼過程中出現差錯、錄入人員的疏忽所犯的錯誤。數據的清理通常包括數據有效範圍的清理、數據邏輯一致性的清理和數據質量的抽查。

數據有效範圍清理

基本思路

有效範圍清理的邏輯是：問卷中任何一個變數，其有效編碼值往往都有某種範圍，而當數據中的數字超出這一範圍時，可以肯定這個數字一定是錯誤的。比如，在數據檔案的“性別”這一變數欄中，出現了數字5,7或者9等，我們馬上可以判斷這是錯誤的編碼值。因為根據編碼手冊的規定，“性別”這一變數賦值是“1=男，2=女，0=無回答”。凡是超出這三者範圍的編碼值，肯定都是錯誤的。

產生錯誤的原因

產生這種錯誤的原因，主要是因為：

（1）原始問卷中的答案出現了問題。被調查者在填答問卷時因為筆誤填寫錯誤。

（2）錯誤發生在編碼員的程式上。比如，某個調查者的年齡是24歲，編碼員在編碼的時候由於粗心，編寫成42歲，超出了我們實際調查對象的年齡限制。這一超出有效範圍的奇異值就來自於編碼員。

（3）錯誤發生在計算機輸入人員輸入數據的過程中。輸入人員在數據輸入的過程中，往往都是眼睛看著編碼欄，手在計算機鍵盤上敲打著0~9這10個數字，但是因為鍵盤上數字之間的距離太近，比價容易輸入錯誤。

對於這一類錯誤的清理，可以通過在SPSS軟體中執行對變數頻數分布的命令，當我們發現頻數分布表中變數的取值超出了編碼手冊所規定的的賦值範圍，可通過計算機將這些個案查找出來，將這些問卷找出同原始問卷核對和修改。如果一份問卷中錯答、亂答的問題不止一兩處，則可以將這個個案的全部數據取消，作為廢卷處理。

邏輯一致性檢查

除了數據輸入的奇異值之外，還有一種較為複雜，需要做的就是邏輯一致性清理。

基本思路

邏輯一致性清理的基本思路是：依據問卷中的問題相互之間存在的某種邏輯聯繫，來檢查前後數據之間的合理性。它比有效範圍清理要複雜一些，主要針對的是相依性問題。比如，前面問到“性別”屬於“男性”，後面出現“懷孕時間”的答案數字；編碼為“獨生子女”的個案數據中，出現了“哥哥、姐姐的個數與年齡”的答案數字，等等。

數據清理

基本介紹

簡介

數據有效範圍清理

基本思路

產生錯誤的原因

邏輯一致性檢查

基本思路

解決方法

數據質量抽查

質量抽查的必要性

基本思路

技巧

相關詞條

熱門詞條