數據質量控制技術

數據質量控制技術

數據質量控制技術是指採用一定的技術措施,使數據在採集、存貯、傳輸中滿足相關的質量要求。

基本介紹

  • 中文名:數據質量控制技術
  • 外文名:Data quality control technology
  • 作用目標:數據在採集、存貯、傳輸中
  • 類型:實時和延時數據質量控制
  • 技術:極值控制、萊茵達檢驗法
  • 作用:使數據滿足相關的質量要求
簡介,數據質量控制方法,極值控制方法,3δ 檢驗法,狄克遜(Dixon)檢驗法,格拉布斯檢驗法(Grubbs),Cochran 檢驗法,數據質量控制過程,

簡介

數據質量控制主要是實時數據質量控制和延時數據質量控制兩種。實時數據質量控制是延時數據質量控制的基礎,實時數據質量控制做得好就能減輕延時數據質量控制的工作。兩種數據質量控制所控制的數據有一定的差別,所以採取的數據質量控制方法也不同,然而這兩種數據質量控制過程基本上是一致的。

數據質量控制方法

數據質量控制方法的研究是數據質量控制的重點,控制方法的好壞直接影響到數據質量。目前,數據質量控制經常用的方法有極值控制、萊茵達檢驗法、狄克遜檢驗法、格拉布斯檢驗法以及Cochran 檢驗法等。

極值控制方法

極值控制方法是根據各種海洋環境要素的物理特性、統計經驗給定各個要素的極大值和極小值。極值控制是普遍採用、簡單有效的方法,能夠有效地檢驗出極端異常的數據。然而極值控制方法不能很好地檢驗那些差異不是很大的異常數據,這就需要更加精準的控制方法來控制。

3δ 檢驗法

3δ 檢驗法又稱萊因達檢驗法。根據誤差理論,一般情況下隨機誤差δ 服從常態分配。δ 為標準差,一般是未知的,通常用貝塞爾公式算得S 代替δ,以x代替真值。

狄克遜(Dixon)檢驗法

狄克遜準則有一假定條件,那就是設定觀測數據總體是常態分配的,取1 個樣本x1,x2,…,xn,將觀測數據按大小順序排列為x'1≤x'2≤x'3≤…≤x'n,檢驗高端值和低端值是否異常有4 種方法。
狄克遜認為對不同的測量次數或不同的數據量,應選用不同的統計。狄克遜方法本身說明該方法適合數據量比較少的情況,對於數據量比較大的數據一般採用其他方法;而且這種方法公式比較多,判別過程相對比較繁瑣。

格拉布斯檢驗法(Grubbs)

格拉布斯準則是根據順序統計量的某種分布規律提出的一種判別標準。

Cochran 檢驗法

Cochran 檢驗法檢驗完成以後還需要對有異常數據的那組數據採用其他的質量控制方法,所以這種方法適用於數據量比較大的數據。

數據質量控制過程

根據海洋站觀測平台的實際觀測,數據質量控制過程可以分為數據採集與傳送、數據轉化、根據採集到的數據特點對數據質量控制方法的選擇和處理,以及數據質量控制結果的顯示及存儲等。
1、 數據採集與傳送
數據採集與傳送是數據質量控制的基礎,數據採集主要是讀取觀測儀器的實時數據或延時數據。現在的數據採集一般是觀測儀器自動記錄觀測數據,這樣可以消除部分人為造成的讀數誤差。數據傳送過程中可能會帶來部分的傳輸誤差,一般造成非碼錯誤,這就要求接收數據的時候應該對數據進行非碼檢驗,保證不必要數據的後期處理。
2、 數據轉化
傳輸的數據往往不一定是我們所認知的數據形式或者數據量綱,這就要求對其進行數據轉換。轉換以後的數據才能更加清晰地反應當前海洋環境的狀況以及趨勢。
3、 選擇適當的數據質量控制方法進行數據質量控制選擇數據質量控制方法是海洋站數據質量控制過程中的核心。為了選擇合適的質量控制方法,首先必須對數據本身的特點進行分析,一般有數據正態性判斷、數據誤差正態性判斷以及數據量的大小,甚至數據分組處理等等。目前常用的數據質量控制方法有極值檢驗、一致性判斷、遞增性判斷、3δ 方法檢驗、格拉布斯檢驗以及狄克遜檢驗等。
4、 數據質量控制結果顯示以及存儲
數據質量控制結果一般通過散點圖、擬合圖、點線圖等來分析當前海洋環境的狀況以及趨勢。數據質量控制的目的不單是為了顯示當前的海洋環境狀況,還要數據質量控制結果的存儲以達到通過數據積累了解海洋規律。
以上的4 個階段是對實時數據質量控制過程的簡單概括,延時數據質量控制是在實時數據質量控制的基礎上進行的更加深入的數據處理過程,不過基本的數據質量控制過程只有上述的3,4 兩個過程。

相關詞條

熱門詞條

聯絡我們