【机器学习】线性回归之概率解释及局部加权线性回归
Probabilistic interpretation
我們應(yīng)該想這樣一個(gè)問題:當(dāng)我們討論回歸問題時(shí),我們?yōu)槭裁匆钚』椒綋p失函數(shù)?在CS229的課程中,吳恩達(dá)教授給我們做了詳細(xì)的概率解釋?,F(xiàn)總結(jié)如下:?
對(duì)單個(gè)樣本來(lái)說(shuō):?
其中? 為預(yù)測(cè)誤差,我們假定樣本的誤差屬于獨(dú)立同分布。?
根據(jù)中心極限定理:多個(gè)隨機(jī)變量的和符合正態(tài)分布;因?yàn)檎`差的隨機(jī)性,?符合均值為0,方差為? 的正態(tài)分布,即假定??,因此:?
上述第2個(gè)等式表明,在給定?, ?的條件下,?符合正態(tài)分布,且均值為?,方差為?,即?
注意,這里不等同于,前者默認(rèn)為是一個(gè)固定的值,一個(gè)本身就存在的最佳參數(shù)矩陣;而后者認(rèn)為是一個(gè)變量(統(tǒng)計(jì)學(xué)中frequentist和Bayesian的差別)。
此時(shí),我們已知了y的概率分布,因?yàn)? 是獨(dú)立同分布的,所以每個(gè)樣本的輸出y也是獨(dú)立同分布的。那么就可以用極大似然估計(jì)(MLE)來(lái)估計(jì)。似然函數(shù)為?
似然函數(shù)取對(duì)數(shù)可得
可以看出,MLE的最終結(jié)果就是要最小化
這恰好就是我們的cost function。
對(duì)對(duì)數(shù)似然函數(shù)求導(dǎo)可得:
易得:(具體的推導(dǎo)可參見Normal Equation)
這不就是我們用Normal Equation得出的結(jié)論嗎!(Normal Equation)
得到的估計(jì)之后,我們?cè)賮?lái)估計(jì)一下,先暫記,則:
解得:
至此,我們已經(jīng)估計(jì)得到了和,所以我們可以得到之前的概率分布模型的確切表達(dá)式。
有了這個(gè)模型,對(duì)于輸入就可以很容易的得到對(duì)于的,及其概率,以及置信區(qū)間等。
?
?
關(guān)于概率解釋還有幾點(diǎn)可以寫。
下次有時(shí)間補(bǔ)上
?
局部加權(quán)線性回歸(Locally Weighted Linear Regression,LWLR)
LWLR算法是一個(gè)non-parametric(非參數(shù))學(xué)習(xí)算法,而線性回歸則是一個(gè)parametric(參數(shù))學(xué)習(xí)算法。
所謂參數(shù)學(xué)習(xí)算法它有固定的明確的參數(shù),參數(shù)一旦確定,就不會(huì)改變了,我們不需要在保留訓(xùn)練集中的訓(xùn)練樣本。
而非參數(shù)學(xué)習(xí)算法,每進(jìn)行一次預(yù)測(cè),就需要重新學(xué)習(xí)一組,是變化的,所以需要一直保留訓(xùn)練樣本。也就是說(shuō),當(dāng)訓(xùn)練集的容量較大時(shí),非參數(shù)學(xué)習(xí)算法需要占用更多的存儲(chǔ)空間,計(jì)算速度也較慢。
先介紹這個(gè)概念是因?yàn)長(zhǎng)WLR由于是非參數(shù)的學(xué)習(xí)算法,所以訓(xùn)練的方式與傳統(tǒng)的線性回歸有點(diǎn)區(qū)別。LWLR并不進(jìn)行預(yù)先訓(xùn)練,而是當(dāng)每次需要預(yù)測(cè)新樣本點(diǎn)的時(shí)候才開始訓(xùn)練整體樣本。LWLR的核心思想就是,與新樣本點(diǎn)相關(guān)度高的(距離近的)樣本起到的權(quán)重大,相關(guān)度低的起到的作用很小。
首先我們來(lái)看一個(gè)線性回歸的問題,在下面的例子中,我們選取不同維度的特征來(lái)對(duì)我們的數(shù)據(jù)進(jìn)行擬合。
對(duì)于上面三個(gè)圖像做如下解釋:
選取一個(gè)特征,來(lái)擬合數(shù)據(jù),可以看出來(lái)擬合情況并不是很好,有些數(shù)據(jù)誤差還是比較大。
針對(duì)第一個(gè),我們?cè)黾恿祟~外的特征,,這時(shí)我們可以看出情況就好了很多。
這個(gè)時(shí)候可能有疑問,是不是特征選取的越多越好,維度越高越好呢?所以針對(duì)這個(gè)疑問,如最右邊圖,我們用五階多項(xiàng)式使得數(shù)據(jù)點(diǎn)都在同一條曲線上,為。此時(shí)它對(duì)于訓(xùn)練集來(lái)說(shuō)做到了很好的擬合效果,但是,我們不認(rèn)為它是一個(gè)好的假設(shè),因?yàn)樗荒軌蜃龅礁玫念A(yù)測(cè)(過擬合)。
針對(duì)上面的分析,我們認(rèn)為第二個(gè)是一個(gè)很好的假設(shè),而第一個(gè)圖我們稱之為欠擬合(underfitting),而最右邊的情況我們稱之為過擬合(overfitting)
所以我們知道特征的選擇對(duì)于學(xué)習(xí)算法的性能來(lái)說(shuō)非常重要,所以現(xiàn)在我們要引入局部加權(quán)線性回歸,它使得特征的選擇對(duì)于算法來(lái)說(shuō)沒那么重要,也就是更隨性了。
?
在我們?cè)嫉木€性回歸中,對(duì)于輸入變量,我們要預(yù)測(cè),通常要做:
?
而對(duì)于局部加權(quán)線性回歸來(lái)說(shuō),我們要做:
為權(quán)值,從上面我們可以看出,如果很大,那么該樣本點(diǎn)所產(chǎn)生的平方誤差的影響就很大,所以如果很小,則它所產(chǎn)生的影響也就很小。
通常我們選擇的形式如下所示:
上式中參數(shù)為新預(yù)測(cè)的樣本特征數(shù)據(jù),它是一個(gè)向量,參數(shù)控制了權(quán)值變化的速率,和的圖像如下
可以看到(感覺這幅圖并不太好,雖然大致的意思(分布上)表達(dá)出來(lái)了)
(1)如果,則。
(2)如果,則。
也即,離很近的樣本,權(quán)值接近于1,而對(duì)于離很遠(yuǎn)的樣本,此時(shí)權(quán)值接近于0,這樣就是在局部構(gòu)成線性回歸,它依賴的也只是周邊的點(diǎn)。
圖中紅色直線使用線性回歸做的結(jié)果,黑色直線使用LWR做的結(jié)果,可以看到局部加權(quán)回歸的效果較好。
參數(shù)τ控制權(quán)重函數(shù)的寬度,τ越大,權(quán)重函數(shù)越寬,也就是下降越慢,τ越小,則對(duì)于距離越敏感:
總結(jié)
這個(gè)模型相對(duì)比較簡(jiǎn)單,雖然可以在一定程度上解決欠擬合的問題,但有相當(dāng)明顯的缺陷。?
參考文章:
線性回歸及其概率解釋
線性回歸概率解釋(Linear Regression)
總結(jié)
以上是生活随笔為你收集整理的【机器学习】线性回归之概率解释及局部加权线性回归的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】线性回归之Normal Eq
- 下一篇: 【数学基础】概率论——p(x|\thet