年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀
Logistics回歸
?logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,并根據危險因素預測疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據該權值可以根據危險因素預測一個人患癌癥的可能性。
概念
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數,其區別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數L將w‘x+b對應一個隱狀態p,p =L(w‘x+b),然后根據p 與1-p的大小決定因變量的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
logistics回歸的原理是:如果直接將線性回歸的模型扣到Logistic回歸中,會造成方程二邊取值區間不同和普遍的非直線關系。因為Logistic中因變量為二分類變量,某個概率作為方程的因變量估計值取值范圍為0-1,但是,方程右邊取值范圍是無窮大或者無窮小。所以,才引入Logistic回歸。
?logistic回歸實質:發生概率除以沒有發生概率再取對數。就是這個不太繁瑣的變換改變了取值區間的矛盾和因變量自變量間的曲線關系。究其原因,是發生和未發生的概率成為了比值 ,這個比值就是一個緩沖,將取值范圍擴大,再進行對數變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關系,這是根據大量實踐而總結。所以,Logistic回歸從根本上解決因變量要不是連續變量怎么辦的問題。還有,Logistic應用廣泛的原因是許多現實問題跟它的模型吻合。例如一件事情是否發生跟其他數值型自變量的關系。?注意:如果自變量為字符型,就需要進行重新編碼。一般如果自變量有三個水平就非常難對付,所以,如果自變量有更多水平就太復雜。這里只討論自變量只有三個水平。非常麻煩,需要再設二個新變量。共有三個變量,第一個變量編碼1為高水平,其他水平為0。第二個變量編碼1為中間水平,0為其他水平。第三個變量,所有水平都為0。實在是麻煩,而且不容易理解。最好不要這樣做,也就是,最好自變量都為連續變量。
適用條件
1、因變量為二分類的分類變量或某事件的發生率,并 且是數值型變量。但是需要注意,重復計數現象指標不適用于Logistic回歸。
2、殘差和因變量都要服從二項分布。二項分布對應的是分類變量,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變量和Logistic概率是線性關系
4、各觀測對象間相互獨立
主要用途
? ? ? 1、編輯
用于尋找危險因素
? ? ? 2、預測
如果已經建立了logistic回歸模型,則可以根據模型,預測在不同的自變量情況下,發生某病或某種情況的概率有多大。
? ? ? 3、判別
實際上跟預測有些類似,也是根據logistic模型,判斷某人屬于某病或屬于某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬于某病。
這是logistic回歸最常用的三個用途,實際中的logistic回歸用途是極為廣泛的,logistic回歸幾乎已經成了流行病學和醫學中最常用的分析方法,因為它與多重線性回歸相比有很多的優勢,以后會對該方法進行詳細的闡述。實際上有很多其他分類方法,只不過Logistic回歸是最成功也是應用最廣的。
分析案例
關于富士康跳樓曲線的Logistic回歸分析。
首先找出所有富士康員工自殺的日期:
列出如下表格:(以07年6月18號,第一例自殺案例為原點,至今(10年5月25日)1072天)
在MATLAB中容易做出散點圖,可見這是一個指數增長的曲線。
其增長曲線與對數增長很接近。對其做指數函數擬合:
General model Exp2:??
f(x) = a*exp(b*x) + c*exp(d*x)?
Coefficients (with 95% confidence bounds):
a = 7.569e-007 (-6.561e-006, 8.075e-006)
b = 0.01529 (0.006473, 0.0241)
c = 1.782 (0.5788, 2.984)
d = 0.001075 (2.37e-005, 0.002125)
Goodness of fit:
SSE: 8.846
R-square: 0.9684
Adjusted R-square: 0.9598
RMSE: 0.8968
可見相關度0.96也是非常高的。
然而和所有疾病一樣,一旦其事件引起了人們的關注,則各方的反饋作用,將阻礙其繼續上升。
因此,和很多流行病分析一樣,該曲線很有可能呈S型。對于該曲線的分析,使用Logistic回歸。
首先假設Logis(B,x)=F(x),之中B為參數數組,則由經驗和可能的微分方程關系,回歸曲線應該為:S(x)=m*Logis(B,x+t0/(n+Logis(B,x+t))格式。由于當Logis(B,x)較小時S(x)=Logis(B,x),則可以認為f(x)的參數可以直接引入S(x)作為一種近似,而對于m,n的確定,以1為間隔,畫出m*n=40*20的所有曲線,選出其中最吻合的的一條(m=22 n=20 t=50):由此可以見,富士康的跳樓人數最終會穩定在在22人左右,仍然不會超過全國平均跳樓率。
掃碼關注我們
|打造品牌學術競賽|
|調研社會熱點問題|
?文稿|胡嘉儀
排版|胡嘉儀
總結
以上是生活随笔為你收集整理的年龄和收入对数的线性回归_Logistics回归——分析富士康的员工自杀的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新手怎么磨90度三刃倒角刀?
- 下一篇: 歼8战机演习?