離群值

離群值

離群值(outlier),也稱逸出值,是指在數據中有一個或幾個數值與其他數值相比差異較大。chanwennt準則規定,如果一個數值偏離觀測平均值的機率小於等於1/(2n),則該數據應當捨棄(其中n為觀察例數,機率可以很據數據的分布進行估計)。

當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。

基本介紹

  • 中文名:離群值
  • 外文名:outlier
  • 釋義:數值與其他數值相比差異較大
  • 領域:醫學實驗,統計數學
  • 別稱:逸出值
  • 檢驗方法:拉依達法、Q檢驗法、肖維特法等
離群值的產生原因,離群值的判斷,離群值的處理方法,離群值的檢驗方法,標準偏差預先已知,標準偏差未知,

離群值的產生原因

離群值的產生原因大致有兩點:
(1)總體固有變異的極端表現, 這是真實而正常的數據, 只是在這次實驗中表現的有些極端,這類離群值與其餘觀測值屬於同一總體。
(2)由於試驗條件和實驗方法的偶然性, 或觀測、 記錄、計算時的失誤所產生的結果,是一種非正常的、錯誤的數據,這些數據與其餘觀測值不屬於同一總體。

離群值的判斷

在一組平行測定所得到的分析數據中,有時會出現個別測定值與其他數據相差較遠,這些數據稱為離群值或逸出值(Qutlier)。
對離群值的處理有一些統計判斷的方法,如chanwennt準則規定,如果一個數值偏離觀測平均值機率小於等於1/(2n),則該數據應當捨棄(其中n為觀察例數,機率可以根據數據的分布進行估計)。
發現離群值可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似常態分配時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此範圍以外,可視為離群值。
在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。

離群值的處理方法

離群值處理方法包括:
(1)保留離群值並用於後續數據處理;
(2)在找到實際原因時修正離群值,否則予以保留;
(3)剔除離群值,不追加觀察值;
(4)剔除離群值,並追加新的觀察值或用適宜的插補值代替。

離群值的檢驗方法

離群值的檢驗可分為兩大類:一類是標準偏差預先已知的場合;另一類是標準偏差未知的場合。只能利用待檢驗的一組分析數據本身來檢驗其中的離群值是否為異常值。

標準偏差預先已知

檢驗時使用統計量:
式中,
是被檢驗的離群值,X是一組測定值的算術平均值,σ是由不包括異常值在內的其他實驗測定值求得。如果根據上式計算的T值查表大於捨棄界限中相應置信度下的臨界值,則將
作為異常值捨棄。

標準偏差未知

在更多的情況下標準偏差是未知的,只能利用待檢驗的一組分析數據本身來檢驗其中的離群值是否應該保留或捨棄。常用的方法有拉依達法、Q檢驗法(狄克松法)、肖維特法、格魯布斯法、t檢驗法、極差法等。
這些方法有著各自的特點和適用範圍:
(1)拉依達法使用方便,不需查表,但有失嚴密,測定次數較多或要求不高時可以套用它;但測定次數較少時,在一組測定值中即使混有異常值,有時也無法剔除。
(2)肖維特法比拉依達法有所改善,但從理論上考慮,當n和
趨向無窮大的時候,此時所有的異常值都無法剔除。
(3)而Q檢驗法、格魯布斯法、t檢驗法和極差法等方法則考慮了置信度的因素,機率意義明確,使所得結果更為科學合理。
(4)Q檢驗法的優點是方法簡便。當測定次數較少時,例如3~ 5次測定,Q檢驗法拒絕接受的只是偏差很大的測定值,將非異常值判定為異常值的幾率是很小,但同時把異常值判斷為非異常值的可能性較大。
(5)格魯布斯法不僅設定了一定的置信度,而且引入了平均值和標準偏差,故判斷的準確性比Q檢驗法高,被中國國家標準推薦採用,也被美國實驗材料協會推薦採用。
(6)t檢驗法在處理數據前,預先“剔除”了被檢驗的離群值,保證了計算標準偏差的正確性和獨立性,在理論上得到了較嚴格的結果,提高了測定精度和檢驗的靈敏度。但如果在檢驗之前預先剔除的數據也可能不是異常值,而只是極值,這樣就會造成計算的標準偏差偏小,原來位於限界的一些極值這時也可能被作為異常值捨棄。
(7)極差法優點是簡便,但在檢驗時,將本來為異常值而作為異常值保留下來的可能性較大。

相關詞條

熱門詞條

聯絡我們