cook距離

cook距離

Cook距離是統計分析中一種常見的距離,用於診斷各種回歸分析中是否存在異常數據。較大的Cook距離表明從回歸統計量和計算中排除個案之後,係數會發生根本變化。

基本介紹

  • 中文名:Cook距離
  • 外文名:Cook distance
  • 學科:統計學
含義,套用,

含義

在回歸分析或方差分析模型中,測量某個觀測值對一組回歸係數的影響。有影響的觀測值對模型具有不成比的影響,會產生誤導性結果。例如,一個顯著係數看上去可能並不顯著。有影響的觀測值可以是槓桿率點、異常值或這兩者。Cook 距離在確定對回歸係數的影響時會同時考慮每個觀測值的槓桿率值和標準化殘差。

套用

一般來講,檢查 D 大於 F(0.5, p, n-p) 的觀測值是一個很好的方法,後者是 F 分布的中位數,其中 p 是模型項數(包括常量),n 是觀測值數。另一種檢驗 D 值的方法是以圖形方式將它們與另一個值相比較(使用線條圖)。相對於其他觀測值,具有較大 D 值的觀測值可能是有影響的觀測值。
要確定影響程度,可以包含和不包含該影響觀測值來擬合模型,並比較係數、p 值、R2 和其他模型參數。如果在排除有影響的觀測值後模型有顯著變化,首先確定該觀測值是否是數據輸入或測量錯誤。如果都不是,則進一步檢查模型以確定是否忽略了重要項(例如,互動作用項)或變數,或者指定了錯誤的模型。您可能需要收集更多數據以解決此問題。

相關詞條

熱門詞條

聯絡我們