混淆變數

混淆變數

混淆變數是指與自變數 X 和因變數 Y 都相關的變數。該變數能使 X 和 Y 之間產生虛假的相關關係。混淆變數可以出現在貝葉斯網路多元回歸等情形中。一個變數是否為混淆變數依賴於模型對因果關係的認定。消除混淆的方法有:在實驗中採用控制變數法、分組實驗法,或在採集完數據後藉助一定的統計模型來扣除混淆變數的影響。

基本介紹

  • 中文名:混淆變數
  • 外文名:confounding variable
  • 學科背景:機率統計
  • 消除混淆方法:貝葉斯公式、多元回歸等
認識混淆變數,貝葉斯公式,公式原理,一個案例,多元回歸,

認識混淆變數

混淆變數是一個基於因果關係的概念,不能完全由對統計數據的相關分析得出。相關關係是一種無向關係,而因果關係則具有方向性。例如有三個變數 X、Y、Z,如果是 Z 影響 X,Z 影響 Y,則 Z 為混淆變數。X 和 Y 之間的相關性可能部分來自於二者對 Z 的共同依賴。例如 X = 服藥,Y = 康復,Z = 年齡、性別等。某些疾病的發病率和康復率都和年齡、性別有關。檢驗藥物是否有效必須考慮到這些因素的影響,最好進行分組實驗。
又例如 X 和 Z 之間並無直接因果聯繫,但二者都對 Y 有影響。在研究 X 對 Y 的影響時,沒有控制變數 Z,則也能發生自變數混淆。例如 X = 戶外活動時間,Y = 發生近視,Z = 用眼習慣、室內照明、遺傳、飲食因素等。在研究戶外活動時間對近視發生率的影響時,如果眾多其它因素 Z 無法嚴格做到在 X 變化時保持恆定,則應試圖保持它們的條件分布恆定,即與 X 的獨立性。事實上後者也非常難做到,所以需要用多元回歸等方法,按照一定的統計模型將它們的影響扣除。
但如果是 X 影響 Z,Z 影響 Y,則 Z 為 X 到 Y 的因果鏈上的中間變數,一般認為不是混淆變數。例如 X = 總收入,Y = 恩格爾係數,Z = 總消費。伴隨著收入提高,消費升級有一定必然性,才導致相對固定的食品支出占總消費的比例(即恩格爾係數)下降。如果收入 X 提高了,卻不允許消費 Z 增加,反而是不符合實際情況的模型。

貝葉斯公式

公式原理

當混淆變數 Z 離散取值時,可以用分組實驗法或貝葉斯公式來消除其影響。由於混淆變數 Z 的存在,給定 X 條件下 Y 發生的條件機率不一定能反映 X 本身對 Y 造成的影響,而可能是不同 X 取值下,混淆變數 Z 的分布不同造成的。一般地有條件機率
可見 X 的取值對 Z 的無條件分布 P(Z) 具有選擇性,使其變為逆概公式 P(Z|X) 的結果。為了消除這種選擇性對因變數 Y 造成的影響,而計算出 X 本身的效果,我們重新定義
上式把混淆變數 Z 的分布固定為其無條件分布 P(Z),可以看作是控制變數法的機率形式。

一個案例

下面舉一個 “辛普森悖論” 的例子來比較兩個條件機率 P(Y|X) 和 P(Y|do X) 的區別。設有兩家醫院 A、B,它們的 1000 位病人的就診康復情況如下表:
人數統計
Z = 1(重症)
Z = 0(輕症)
Y = 1(康復)
Y = 0(未康復)
Y = 1(康復)
Y = 0(未康復)
X = 醫院 A
480
320
180
20
Y = 醫院 B
60
140
640
160
為了簡化問題,我們將 Y 和 Z 都取成了二分類變數。可以計算條件機率
看起來醫院 B 的病人康復率 70% 要高於醫院 A 的 66%。但重新把重症 Z = 1 和輕症 Z = 0 分開計算,將得出
不論是重症還是輕症,醫院 A 的康復率都明顯更高。這一現象叫做 “辛普森悖論”。雖然分組康復率都是 A 高於 B,但正因為如此,重症病人更願意去醫院 A 就診,以尋求更高的康復率,最後把醫院 A 的總康復率降到反而要低於主要醫治輕症病人的醫院 B。如果醫院 A 和醫院 B 的就診人數之比為 2:1,且不計其它醫院病人,則可以計算出重症和輕症的無條件機率
以相同的重輕症比例來計算兩家醫院的康復率得
上面這兩個數字對於比較兩家醫院 X = A、B 的醫療水平和病人選擇醫院顯然更有指導意義。而原先的條件機率不區分重症和輕症,單純地只看總康復率,則得出了誤導的結論。

多元回歸

當混淆變數 Z 連續取值時,可以用多元線性回歸方法,計算 Z 保持恆定時 X 和 Y 的偏相關係數。主要思路是雖然沒有做到 Z 保持不變,但如果 Z 對 X 和 Y 的影響都是線性的,則可以根據模型將其扣除,生成一組等效的數據點 (X', Y'),其中 X' = X – aZ,Y' = Y – bZ。扣除係數 a 和 b 以 X' 和 Y' 都同 Z 不相關為準。
設已經對變數 X、Y、Z 的方差歸一化,即 var(X) = var(Y) = var(Z) = 1。於是有
同理,扣除係數 b = rYZ。於是等效數據點 X' 和 Y' 之間的相關係數
將上式定義為 X 和 Y 的偏相關係數 rXY|Z。如果 X、Y、Z 三個變數服從多元常態分配,則偏相關係數 rXY|Z 等於變數 Z 保持不變時,X 和 Y 的條件分布的相關係數;而原始的相關係數 rXY 則為 X 和 Y 的邊緣分布的相關係數。兩個分布同為二元常態分配,後者為前者對不同 Z 的可能值的混合分布。
以上只討論了一個混淆變數 Z 的情況。如果有多個變數 Z1, Z2, ..., Zp-2 的影響需要消除,可以用矩陣形式重複上述推導,或在多元常態分配的機率密度函式中令要消去的變數為常數,從而直接讀出協方差矩陣的逆矩陣 Σ的矩陣元來計算多元偏回歸係數偏相關係數。如果因變數 Y 離散取值,例如發生或不發生,或為其它分類變數,則可以用多元 logistic回歸方法處理。

相關詞條

熱門詞條

聯絡我們