经验风险、期望风险、结构风险
本次記錄內容包括機器學習中的三種類型的風險函數(shù)
風險函數(shù)與損失函數(shù)的關系
統(tǒng)計學習模型旨在假設空間中尋找最佳的模型,那么需要指定一個準則來作為模型選取的評判標準。
因此引入了損失函數(shù)和風險函數(shù)。
損失函數(shù):度量模型一次預測的好壞
風險函數(shù):度量平均意義下的模型預測好壞
由損失函數(shù)推向風險函數(shù)
常見的損失函數(shù):
確定了損失函數(shù)后,那么自然地損失函數(shù)越小越好,由于模型的輸入X,輸出Y 是隨機變量,遵循聯(lián)合分布P(X, Y),所以損失函數(shù)的期望為:
(連續(xù)變量求積分,離散變量求和)
?
為什么要引入損失函數(shù)的期望呢?
原因是:人們希望模型能夠刻畫在全體樣本上的預測能力!解釋:就目前為止,我們手頭上的數(shù)據(jù)僅僅是訓練集,想要刻畫模型對訓練集擬合的好壞,直接將單點誤差損失相加求均值即可,但是我們的模型再怎樣對訓練集擬合的好,都無濟于事,因為我們更多考慮的是模型對未知數(shù)據(jù)的擬合能力。那么如何衡量模型在全體數(shù)據(jù)集上的性能呢?自然而然,引入概率論中兩隨機變量的期望。
區(qū)別一下期望和均值:
如果我們能進行無窮次隨機實驗并計算出其樣本的平均數(shù)的話,那么這個平均數(shù)其實就是期望。當然實際上根本不可能進行無窮次實驗,但是實驗樣本的平均數(shù)會隨著實驗樣本的增多越來越接近期望,就像頻率隨著實驗樣本的增多會越來越接近概率一樣
如果說概率是頻率隨樣本趨于無窮的極限
那么期望就是平均數(shù)隨樣本趨于無窮的極限
經驗風險與期望風險
我們將上面提到的訓練集的總損失定義為經驗風險,如下所示:
?
?
將損失的期望稱為期望風險,如下所示:
?
怎樣求風險?
機器學習問題求的是條件概率,那么有人就說了,既然上面提到了兩隨機變量的聯(lián)合分布,那么我們根據(jù)條件概率-聯(lián)合概率-邊緣概率的關系豈不是可以直接求解?
其實,我們手頭無法得到全體樣本,因此,聯(lián)合概率 P(X, Y) 是無法得到的,但是根據(jù)弱大數(shù)定律,當樣本N無限大時,可用經驗風險作為期望風險的估計,也就是局部估計整體。
那么我們常說的風險最小化其實就指的是經驗風險最小化!
為何引入結構化風險?
雖然可以使用經驗損失近似估計期望風險,但是大數(shù)定理的前提是N無窮大,實際上,我們的訓練集一般不會特別大,此時就需要對經驗風險做出適當調整才能近似估計。因此引入結構風險。
結構化風險是為了緩解數(shù)據(jù)集過小而導致的過擬合現(xiàn)象,其等價于正則化,本質上反應的是模型的復雜度。認為經驗風險越小,參數(shù)越多,模型越復雜,因此引入對模型復雜度的懲罰機制。定義如下:
正則化被定義為模型復雜度的單調函數(shù),λ用于權衡經驗風險與模型復雜度。
至此,我們認為結構風險最小化的模型是最優(yōu)模型,因此,我們的優(yōu)化問題變?yōu)?#xff1a;
?
結構化風險本質
結構化風險(正則項)其實是加入了模型參數(shù)分布的先驗知識,也就是貝葉斯學派為了將模型往人們期望的地方去發(fā)展,繼而加入了先驗分布,由于是人為的先驗,因此也就是一個規(guī)則項(這也就是正則項名稱的由來)。這樣一來,風險函數(shù)將進一步考慮了被估計量的先驗概率分布。
李航老師書中的兩個疑惑
證明: ?
證明:
極大似然需滿足樣本抽樣為獨立同分布,且模型已知,對模型參數(shù)進行估計。
極大似然定義如下: ?
?
總結
以上是生活随笔為你收集整理的经验风险、期望风险、结构风险的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 单元测试的方法
- 下一篇: vim 的substitute