Loss Function view
[machine learning] Loss Function view
Posted on?October 24, 2013有關(guān)Loss Function(LF),只想說(shuō),終于寫(xiě)了
一、Loss Function
什么是Loss Function?wiki上有一句解釋我覺(jué)得很到位,引用一下:The loss function quantifies the amount by which the prediction deviates from the actual values。Loss Function中文損失函數(shù),適用于用于統(tǒng)計(jì),經(jīng)濟(jì),機(jī)器學(xué)習(xí)等領(lǐng)域,雖外表形式不一,但其本質(zhì)作用應(yīng)是唯一的,即用于衡量最優(yōu)的策略。本章只從機(jī)器學(xué)習(xí)(ML)領(lǐng)域來(lái)對(duì)其進(jìn)行闡述,機(jī)器學(xué)習(xí)其實(shí)是個(gè)不停的模擬現(xiàn)實(shí)的過(guò)程,比如無(wú)人駕駛車(chē),語(yǔ)音識(shí)別,流感預(yù)測(cè),天氣預(yù)報(bào),經(jīng)濟(jì)周期行為等眾多領(lǐng)域,是互聯(lián)網(wǎng)發(fā)展過(guò)程中“科學(xué)家”(暫且這么稱(chēng)呼吧)對(duì)于人類(lèi)文明進(jìn)步的另一個(gè)貢獻(xiàn),其本質(zhì)就是要建立一個(gè)數(shù)學(xué)模型用于模擬現(xiàn)實(shí),越接近真實(shí)越好,那么轉(zhuǎn)化為數(shù)學(xué)語(yǔ)言即LF越小越好,因?yàn)長(zhǎng)F值代表著現(xiàn)實(shí)與學(xué)習(xí)預(yù)測(cè)的差距,這個(gè)不停的縮小LF值的過(guò)程就稱(chēng)為優(yōu)化,如果理解這些的話,就不難理解優(yōu)化問(wèn)題對(duì)于ML來(lái)說(shuō)的重要性了,如水之于魚(yú),魂之于人!
二、幾種Loss Function概述
如上一節(jié)所述,LF的概念來(lái)源于機(jī)器學(xué)習(xí),同時(shí)我們也知道機(jī)器學(xué)習(xí)的應(yīng)用范圍相當(dāng)廣泛,幾乎可以涵蓋整個(gè)社會(huì)領(lǐng)域,那么自然不同的領(lǐng)域多少會(huì)有不同的做法,這里介紹在一般的機(jī)器學(xué)習(xí)算法中常見(jiàn)的幾種,具有概括性
2.1 一般形式
LF分為兩部分:L+R,L表示loss term,其中?,?,w表示學(xué)習(xí)出來(lái)的權(quán)重,該公式的作用很明顯了,用來(lái)收集現(xiàn)實(shí)與學(xué)習(xí)結(jié)果的差距,是LF的核心部分,LF的不同大部分也是指的loss term的不同;R表示范式,范式存在的意思是進(jìn)行約束,以防止優(yōu)化過(guò)偏。
2.2 一般的loss term有5種,分別用于5種常見(jiàn)的機(jī)器學(xué)習(xí)算法
Gold Standard(標(biāo)準(zhǔn)式)于理想sample,這種一般很少有實(shí)踐場(chǎng)景,這個(gè)方法的作用更多的是用來(lái)衡量其他LF的效用;Hinge于soft-margin svm算法;log于LR算法(Logistric Regression);squared loss于線性回歸(Liner Regression)和Boosting。
1)Gold Standard loss,一般我們稱(chēng)這個(gè)LF為L(zhǎng)01,從公式中可以看出該公式的主要職責(zé)是在統(tǒng)計(jì)多少個(gè)錯(cuò)誤的case,很明顯現(xiàn)實(shí)數(shù)據(jù)不允許如此簡(jiǎn)單的統(tǒng)計(jì)方式
從公式我們可以很清楚的看出,當(dāng)m<0的時(shí)候L=1,m<0說(shuō)明預(yù)測(cè)失敗,那么Loss則加1,這樣將錯(cuò)誤累加上去,就是Gold Standard loss的核心思想。
2)hinge loss,常用于“maximum-margin”的算法,公式如下
這個(gè)公式也很好理解,其中?在前面介紹過(guò),表示樣本i在模型下的預(yù)測(cè)值的樣本i的類(lèi)標(biāo)記{-1,1}的乘積,這個(gè)乘積可以用來(lái)檢驗(yàn)預(yù)測(cè)與真實(shí)結(jié)果是否一致來(lái)表示分類(lèi)是否正確,當(dāng)乘積大于0時(shí)表示分類(lèi)正確,反之亦然。
3)?log loss(一般又稱(chēng)為基于最大似然的負(fù)log loss)
likelihood=
其中?是log函數(shù)
最大似然思想指的是使得某種情況發(fā)生的概念最大的思想,根據(jù)LR的思想(參考這篇文章logistic回歸深入篇(1)),我們知道g(w)對(duì)應(yīng)的simod圖,其將實(shí)域上的值映射到區(qū)間{0,1},因此我們可以把g(w)看作事件A發(fā)生的概率,那么1-g(w)可以看作事件A不發(fā)生的概率,那么公式likelihood表達(dá)的含義就很明顯了,y也是一個(gè)概率值,可以看做是對(duì)事件A與A逆的分量配額,當(dāng)然我們的期望是A發(fā)生的可能越大越好,A逆發(fā)生的可能越小越好!因此likelihood是一個(gè)max的過(guò)程,而loss是一個(gè)min的過(guò)程,因此log loss是負(fù)的likelihood。
4)square loss
這個(gè)loss很好理解,就是平方差,loss 一般也成為最小二乘法
5)boosting loss
這個(gè)loss主要是基于指數(shù)函數(shù)的loss function。
三、幾種Loss Function的效果對(duì)比
?
?
?
?
?
?
?
?
?
?
?
?
上圖是多LF的效果對(duì)比圖,其中藍(lán)色的是Gold loss,可以看作水平基線,其他的loss的效果可以基于與它的比較結(jié)果,首先,紅色的是Hinge loss,黃色的是log loss,綠色的是boosting loss,黑色的是square loss,從上圖可以看出以下結(jié)論: Hinge,log對(duì)于噪音函數(shù)不敏感,因?yàn)楫?dāng)m<0時(shí),他們的反應(yīng)不大,而黑線與綠線可能更愛(ài)憎分明,尤其是黑線,因此,在很多線性分類(lèi)問(wèn)題中,square loss也是很常見(jiàn)的LF之一。
總結(jié)
以上是生活随笔為你收集整理的Loss Function view的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 程序化广告交易中的点击率预估
- 下一篇: Learning To Rank之Lam