logistic回歸

概念

logistic回歸是一種廣義線性回歸（generalized linear model），因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求參數，其區別在於他們的因變數不同，多重線性回歸直接將w‘x+b作為因變數，即y =w‘x+b，而logistic回歸則通過函式L將w‘x+b對應一個隱狀態p，p =L(w‘x+b),然後根據p 與1-p的大小決定因變數的值。如果L是logistic函式，就是logistic回歸，如果L是多項式函式就是多項式回歸。

logistic回歸的因變數可以是二分類的，也可以是多分類的，但是二分類的更為常用，也更加容易解釋，多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。

Logistic回歸模型的適用條件

1 因變數為二分類的分類變數或某事件的發生率，並且是數值型變數。但是需要注意，重複計數現象指標不適用於Logistic回歸。

2 殘差和因變數都要服從二項分布。二項分布對應的是分類變數，所以不是常態分配，進而不是用最小二乘法，而是最大似然法來解決方程估計和檢驗問題。

3 自變數和Logistic機率是線性關係

4 各觀測對象間相互獨立。

原理：如果直接將線性回歸的模型扣到Logistic回歸中，會造成方程二邊取值區間不同和普遍的非直線關係。因為Logistic中因變數為二分類變數，某個機率作為方程的因變數估計值取值範圍為0-1，但是，方程右邊取值範圍是無窮大或者無窮小。所以，才引入Logistic回歸。

Logistic回歸實質：發生機率除以沒有發生機率再取對數。就是這個不太繁瑣的變換改變了取值區間的矛盾和因變數自變數間的曲線關係。究其原因，是發生和未發生的機率成為了比值，這個比值就是一個緩衝，將取值範圍擴大，再進行對數變換，整個因變數改變。不僅如此，這種變換往往使得因變數和自變數之間呈線性關係，這是根據大量實踐而總結。所以，Logistic回歸從根本上解決因變數要不是連續變數怎么辦的問題。還有，Logistic套用廣泛的原因是許多現實問題跟它的模型吻合。例如一件事情是否發生跟其他數值型自變數的關係。

注意：如果自變數為字元型，就需要進行重新編碼。一般如果自變數有三個水平就非常難對付，所以，如果自變數有更多水平就太複雜。這裡只討論自變數只有三個水平。非常麻煩，需要再設二個新變數。共有三個變數，第一個變數編碼1為高水平，其他水平為0。第二個變數編碼1為中間水平，0為其他水平。第三個變數，所有水平都為0。實在是麻煩，而且不容易理解。最好不要這樣做，也就是，最好自變數都為連續變數。

自殺時間x/d	0	75	272	758	794	950	997	1003	1015
1023	1024	1024	1053	1051	1072

累計自殺人數y	1	2	3	4	5	6	7	8	9
10	11	12	13	14	15

logistic回歸

基本介紹

概念

主要用途

尋找危險因素

預測

判別

案例分析

其他信息

相關詞條

熱門詞條