數據清理

數據清理

數據清理用來自多個在線上事務處理 (OLTP) 系統的數據生成數據倉庫進程的一部分。拼寫、兩個系統之間衝突的拼寫規則和衝突的數據(如對於相同的部分具有兩個編號)之類的錯誤。數據清理工作的目的是不讓有錯誤或有問題的數據進入運算過程,一般在計算機的幫助下完成,包括數據有效範圍的清理、數據邏輯一致性的清理和數據質量的抽查。

基本介紹

  • 中文名:數據清理
  • 外文名:data filing
  • 數據清理:是一個過程
  • 第一步:是偏差檢驗
  • 第二步:是數據變換或刪除數據
簡介,數據有效範圍清理,基本思路,產生錯誤的原因,邏輯一致性檢查,基本思路,解決方法,數據質量抽查,質量抽查的必要性,基本思路,技巧,

簡介

該進程必須解決不正確的用來自多個在線上事務處理(OLTP) 系統的數據生成數據倉庫進程的一部分。拼寫、兩個系統之間衝突的拼寫規則和衝突的數據(如對於相同的部分具有兩個編號)之類的錯誤。
編碼或把資料錄入時的錯誤,會威脅到測量的效度。數據清理主要解決數據檔案建立中的人為誤差,以及數據檔案中一些對統計分析結果影響較大的特殊數值。常用的數據清理方法包括可編碼式清理和聯列式清理。
數據清理是一個過程,它包括兩步:第一步是偏差檢驗,第二步是數據變換。同時這兩步疊代進行。
數據清理工作的目的是不讓有錯誤或有問題的數據進入運算過程。數據清理工作一般在計算機的幫助下完成。在錄入的過程中,無論組織安排的多么仔細,工作多么認真,還是會或多或少出現一些差錯,如原始數據本身存在問題、編碼過程中出現差錯、錄入人員的疏忽所犯的錯誤。數據的清理通常包括數據有效範圍的清理、數據邏輯一致性的清理和數據質量的抽查。

數據有效範圍清理

基本思路

有效範圍清理的邏輯是:問卷中任何一個變數,其有效編碼值往往都有某種範圍,而當數據中的數字超出這一範圍時,可以肯定這個數字一定是錯誤的。比如,在數據檔案的“性別”這一變數欄中,出現了數字5,7或者9等,我們馬上可以判斷這是錯誤的編碼值。因為根據編碼手冊的規定,“性別”這一變數賦值是“1=男,2=女,0=無回答”。凡是超出這三者範圍的編碼值,肯定都是錯誤的。

產生錯誤的原因

產生這種錯誤的原因,主要是因為:
(1)原始問卷中的答案出現了問題。被調查者在填答問卷時因為筆誤填寫錯誤。
(2)錯誤發生在編碼員的程式上。比如,某個調查者的年齡是24歲,編碼員在編碼的時候由於粗心,編寫成42歲,超出了我們實際調查對象的年齡限制。這一超出有效範圍的奇異值就來自於編碼員。
(3)錯誤發生在計算機輸入人員輸入數據的過程中。輸入人員在數據輸入的過程中,往往都是眼睛看著編碼欄,手在計算機鍵盤上敲打著0~9這10個數字,但是因為鍵盤上數字之間的距離太近,比價容易輸入錯誤。
對於這一類錯誤的清理,可以通過在SPSS軟體中執行對變數頻數分布的命令,當我們發現頻數分布表中變數的取值超出了編碼手冊所規定的的賦值範圍,可通過計算機將這些個案查找出來,將這些問卷找出同原始問卷核對和修改。如果一份問卷中錯答、亂答的問題不止一兩處,則可以將這個個案的全部數據取消,作為廢卷處理。

邏輯一致性檢查

除了數據輸入的奇異值之外,還有一種較為複雜,需要做的就是邏輯一致性清理。

基本思路

邏輯一致性清理的基本思路是:依據問卷中的問題相互之間存在的某種邏輯聯繫,來檢查前後數據之間的合理性。它比有效範圍清理要複雜一些,主要針對的是相依性問題。比如,前面問到“性別”屬於“男性”,後面出現“懷孕時間”的答案數字;編碼為“獨生子女”的個案數據中,出現了“哥哥、姐姐的個數與年齡”的答案數字,等等。

解決方法

要查找和清理邏輯一致性問題的個案,可以在SPSS軟體中,執行條件選擇個案命令(Select Cases)中的If命令,來找出個案進行修改,或者直接用重新設定變數值命令進行變數取值的轉換。
如果用Select Cases命令時,現用If命令將所有不符合要求的個案挑出來,再按前述有效範圍清理的方法,找到原始問卷進行核對,對其做相應的處理。
邏輯一致性清理還可以採取SPSS中變數值轉換的命令(即Record命令)來進行。可以採用Record into same Variables 命令對變數的取值進行轉換。用Record命令的好處在於可以把需要修改的變數一次性修改完畢,所以這就要求研究者在運用這一命令時,確定符合條件的變數都是需要修改的,在輸入的時候不是因為前面的過濾性問題而產生的錯誤。
邏輯一致性清理根據問卷調查中各問題的邏輯關係和情況不同,研究者要具體問題具體分析,不能一概而論,根據其內在的邏輯關係進行清理。

數據質量抽查

質量抽查的必要性

在上述兩種方法對數據進行清理後,仍可能存在一些錯誤沒有清理出來,假設某個案的數據在“性別”這一變數上輸錯了,問卷調查上填的答案是1(男性),編碼值也是1,但是數據錄入時卻敲錯成了2(女性)。因為2這個答案在正常有效的編碼值範圍內,因此,有效範圍的清理檢查查不出這一錯誤,也不可能通過邏輯一致性進行清理,更不可能拿著問卷一份份的核對,這時人們通常採用的方式時數據質量的抽查。

基本思路

數據質量抽查,是從樣本的全部個案中,抽取一部分個案,對這些個案參照原始問卷逐一進行校對。用這一部分個案校對的結果來估計和評價全部數據的質量。根據樣本中個案數目的多少,以及每份問卷中變數數和總數據的多少,研究者往往抽取2%~5%的個案進行校對。如一項調查樣本的規模為1000個個案,一份問卷的數據個數為100,研究者從中隨機抽取3%的個案,也即30份問卷進行核查,結果發現1個數據輸入錯誤。這樣1/(100*30)=0.033%,這就說明了數據的錯誤率在0.033%左右,在總共10萬個數據中,大約有33個錯誤。雖然我們將其找出對其進行修改,但可以知道錯誤數據所占的比例,對調查結果有多大的影響,了解數據的質量。

技巧

1.首先,你可以下載一些存儲分析器。在你的基礎架構上運行這個程式,找出90天內沒有被訪問或修改的所有檔案。做一個列表單並儘量將其與活動目錄聯繫起來。
2.找出最大的檔案,將其遞交給相應的經理。“你看,這些檔案占用了大量空間,並且其中許多檔案都已經超過90天沒有被訪問了。這些檔案還有用嗎?”
3.讓用戶自由無限制地訪問磁帶。告訴他們這上面的數據很安全;而且可以通過全球資訊網訪問,可能會花費20秒到2分鐘的時間。不過我們不想再把它放置在主存儲上了,因為我們在主存儲上的開銷太大。你可能只需這一點點配合就能實現;甚至你都感覺不到。
4.實施檔案隔離方案。基本上,指出在首次創建數據時你如何部署它們,並且在其上套用策略。精細地理解數據是最好的方式,即便只是基於人員所屬部門來做。假如他在會計部門工作,並且你認為所有的會計系統都是關鍵業務,這就表示有某種水平的服務和資源承諾。當其進行保存時,檔案就在應該在的位置。對用戶完全透明,不需要進行任何配合操作。
5.怎樣實現呢?你會針對每個資源池中數據的重要程度套用不同的策略。那么你是否會收到錯誤信息?當然會!不過一旦你收到錯誤信息,而且在90天內都沒有被訪問,那么它們會被遷移下線。我們不得不開始考慮應該怎樣處理這部分數據了。

相關詞條

熱門詞條

聯絡我們