回归分析中的正则化问题
什么是邏輯回歸?
Logistic回歸與多重線性回歸實(shí)際上有很多相同之處,最大的區(qū)別就在于它們的因變量不同,其他的基本都差不多。正是因?yàn)槿绱?#xff0c;這兩種回歸可以歸于同一個(gè)家族,即廣義線性模型(generalizedlinear model)。
這一家族中的模型形式基本上都差不多,不同的就是因變量不同。?
- 如果是連續(xù)的,就是多重線性回歸;
- 如果是二項(xiàng)分布,就是Logistic回歸;
- 如果是Poisson分布,就是Poisson回歸;
- 如果是負(fù)二項(xiàng)分布,就是負(fù)二項(xiàng)回歸。?
Logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實(shí)際中最常用的就是二分類的Logistic回歸。
Logistic回歸的主要用途:?
- 尋找危險(xiǎn)因素:尋找某一疾病的危險(xiǎn)因素等;
- 預(yù)測:根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大;
- 判別:實(shí)際上跟預(yù)測有些類似,也是根據(jù)模型,判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大,也就是看一下這個(gè)人有多大的可能性是屬于某病。
?Logistic回歸主要在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某疾病的危險(xiǎn)因素,根據(jù)危險(xiǎn)因素預(yù)測某疾病發(fā)生的概率,等等。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,自變量就可以包括很多了,例如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。?
常規(guī)步驟
Regression問題的常規(guī)步驟為:?
構(gòu)造預(yù)測函數(shù)h
Logistic回歸雖然名字里帶“回歸”,但是它實(shí)際上是一種分類方法,主要用于兩分類問題(即輸出只有兩種,分別代表兩個(gè)類別),所以利用了Logistic函數(shù)(或稱為Sigmoid函數(shù)),函數(shù)形式為:
Sigmoid 函數(shù)在有個(gè)很漂亮的“S”形,如下圖所示(引自維基百科):
?
?
?
下面左圖是一個(gè)線性的決策邊界,右圖是非線性的決策邊界。
?
對于線性邊界的情況,邊界形式如下:
構(gòu)造預(yù)測函數(shù)為:
函數(shù)的值有特殊的含義,它表示結(jié)果取1的概率,因此對于輸入x分類結(jié)果為類別1和類別0的概率分別為:
?
構(gòu)造損失函數(shù)J
Cost函數(shù)和J函數(shù)如下,它們是基于最大似然估計(jì)推導(dǎo)得到的。
下面詳細(xì)說明推導(dǎo)的過程:
(1)式綜合起來可以寫成:
取似然函數(shù)為:
?
對數(shù)似然函數(shù)為:
?
最大似然估計(jì)就是求使取最大值時(shí)的θ,其實(shí)這里可以使用梯度上升法求解,求得的θ就是要求的最佳參數(shù)。但是,在Andrew Ng的課程中將取為下式,即:
因?yàn)槌肆艘粋€(gè)負(fù)的系數(shù)-1/m,所以取最小值時(shí)的θ為要求的最佳參數(shù)。
?
梯度下降法求的最小值
θ更新過程:
?
?
θ更新過程可以寫成:
?
??
?
??
正則化Regularization
過擬合問題
對于線性回歸或邏輯回歸的損失函數(shù)構(gòu)成的模型,可能會(huì)有些權(quán)重很大,有些權(quán)重很小,導(dǎo)致過擬合(就是過分?jǐn)M合了訓(xùn)練數(shù)據(jù)),使得模型的復(fù)雜度提高,泛化能力較差(對未知數(shù)據(jù)的預(yù)測能力)。
下面左圖即為欠擬合,中圖為合適的擬合,右圖為過擬合。
?問題的主因
過擬合問題往往源自過多的特征。
解決方法
1)減少特征數(shù)量(減少特征會(huì)失去一些信息,即使特征選的很好)?
- 可用人工選擇要保留的特征;
- 模型選擇算法;?
2)正則化(特征較多時(shí)比較有效)?
- 保留所有特征,但減少θ的大小?
3)減少樣本(樣本太多了,可以適當(dāng)減少樣本,當(dāng)然要隨機(jī)進(jìn)行)
4)減少迭代次數(shù),有時(shí)候迭代次數(shù)過多,會(huì)導(dǎo)致過度擬合(一個(gè)是擬合了更多的數(shù)據(jù),一個(gè)是權(quán)值迭代次過多)
5)交叉驗(yàn)證,在訓(xùn)練數(shù)據(jù)集或驗(yàn)證集上做驗(yàn)證,可以調(diào)節(jié)迭代次數(shù),從而預(yù)防過擬合或欠擬合
正則化方法
正則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)或懲罰項(xiàng)。正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化項(xiàng)就越大。
從房價(jià)預(yù)測問題開始,這次采用的是多項(xiàng)式回歸。左圖是適當(dāng)擬合,右圖是過擬合。
?
直觀來看,如果我們想解決這個(gè)例子中的過擬合問題,最好能將的影響消除,也就是讓。假設(shè)我們對進(jìn)行懲罰,并且令其很小,一個(gè)簡單的辦法就是給原有的Cost函數(shù)加上兩個(gè)略大懲罰項(xiàng),例如:
這樣在最小化Cost函數(shù)的時(shí)候,。
正則項(xiàng)可以取不同的形式,在回歸問題中取平方損失,就是參數(shù)的L2范數(shù),也可以取L1范數(shù)。取平方損失時(shí),模型的損失函數(shù)變?yōu)?#xff1a;
?
lambda是正則項(xiàng)系數(shù):?
- 如果它的值很大,說明對模型的復(fù)雜度懲罰大,對擬合數(shù)據(jù)的損失懲罰小,這樣它就不會(huì)過分?jǐn)M合數(shù)據(jù),在訓(xùn)練數(shù)據(jù)上的偏差較大,在未知數(shù)據(jù)上的方差較小,但是可能出現(xiàn)欠擬合的現(xiàn)象;
- 如果它的值很小,說明比較注重對訓(xùn)練數(shù)據(jù)的擬合,在訓(xùn)練數(shù)據(jù)上的偏差會(huì)小,但是可能會(huì)導(dǎo)致過擬合。
?正則化后的梯度下降算法θ的更新變?yōu)?#xff1a;
?
正則化后的線性回歸的Normal Equation的公式為:
?
?參考文獻(xiàn):http://52opencourse.com/133/coursera
轉(zhuǎn)載于:https://www.cnblogs.com/hitwhhw09/p/4630494.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的回归分析中的正则化问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么每个请求都要有用户名密码呢,那不是
- 下一篇: linux怎么判断用户是否存在