卡方統計量

定義

卡方統計量是指數據的分布與所選擇的預期或假設分布之間的差異的度量。在1900年由英國統計學家pearson提出，是用於卡方檢驗中的一個統計量。

功能

它可用於檢驗類別變數之間的獨立性或確定關聯性。例如，如果有一個按投票者性別分類的選舉結果的雙因子表，卡方統計量可幫助確定投票是否獨立於投票者的性別，或者在投票與性別之間是否存在關聯。如果與卡方統計量相關聯的p值小於選定的a水平，檢驗將拒絕兩個變數彼此獨立的原假設。

也可用於確定某個統計模型是否能夠充分擬合數據。例如，Logistic回歸將計算卡方統計量以評估模型的擬合情況。如果與卡方統計量相關聯的p值小於選定的a水平，檢驗將拒絕模型與數據相擬合的原假設。另一個示例是“基本統計量”選單中的用於Poisson數據的擬合優度檢驗，它使用卡方統計量來確定數據是否服從Poisson分布。如果數據為離散數據，則可以報告每個類別對卡方值的貢獻，從而量化每個類別差異對總卡方值有多大影響。例如，如果一個擬合優度檢驗拒絕了原假設，則這個結果是因為所有類別與預期稍有差異還是因為有一個類別與其預期極大不同導致的？假設您預期一盒蠟筆中包含一根藍色、一根紅色以及一根綠色的蠟筆，但實際上它包含一根藍色和兩根綠色的蠟筆，而沒有紅色的蠟筆。“綠色”和“紅色”類別與預期不符，但“藍色”相符。因此，“藍色”並不影響所生成的卡方值；數據中的所有差異均來自“綠色”和“紅色”類別。