《统计学习方法》读书笔记(1)---学习的要素
學(xué)習(xí)的三要素
? ? 方法 = 模型 + 策略 + 算法
?
模 型
? ? 所要學(xué)習(xí)的條件概率分布或決策函數(shù),模型的假設(shè)空間包含所有可能的條件概率分布或決策函數(shù)。
? ??\(F = \{ ~f~ | ~Y = f(X)~ \}\), ?\(F = \{ ~f~ | ~Y = f_{\theta}(X), \theta \in R^{n}~ \}\)
? ? 條件概率
? ? \(F = \{ ~P~ | ~P(Y~|~X)~ \} \), \(F = \{ ~P~ | ~P_{\theta}(Y~|~X), \theta \in R^{n}~ \}\)
?
策 略
? ? 為了從假設(shè)空間中選取最優(yōu)模型,需要引用一些手段來評估模型。
1)損失函數(shù)
? ? 損失函數(shù)度量模型一次預(yù)測的好壞,常用的損失函數(shù)有:
? ? 1. 0 - 1損失函數(shù)(0-1 loss function)
? ? ? ? \(L(Y,~f(x)) = \left\{\begin{array}{lcl} {~1, ~Y \neq f(x)~} \\ {~0, ~Y = f(x)~} \end{array} \right \}?\)
? ? 2. 平方損失函數(shù)(quadratic loss function)
? ? ? ? \(L(Y,~f(x)) = (Y~-~f(x))^{2}\)
? ? 3. 絕對損失函數(shù)(absolute loss function)
? ? ? ? \(L(Y,~f(x)) = |Y~-~f(x)|\)
? ? 4. 對數(shù)損失函數(shù)(logarithmic loss function)或?qū)?shù)似然損失函數(shù)(log-likelihood loss function)
? ? ? ? \(L(Y,~f(x)) = -\log P(Y~|~x)\)
?
2)風(fēng)險函數(shù)
? ? 損失函數(shù)值越小,模型就越好。由于模型的輸入,輸出\((X,~Y)\)是隨機變量,遵循聯(lián)合分布\(P(X,~Y)\),所以損失函數(shù)的期望是
? ? ? ? \(R_{exp}(f) = E_{p}[L(Y,~f(X))] = \int _{x \times y}L(y,~f(x))P(x,~y)dxdy\)
? ? 這是理論上模型\(f(x)\)關(guān)于聯(lián)合分布\(P(X,~Y)\)的平均意義下的損失,稱為風(fēng)險函數(shù)(risk function)或期望損失(expected loss)。學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險最小的模型,由于聯(lián)合分布\(P(Y~|~X)\)是未知的,\(R_{exp}(f)\)不能直接計算。
? ? 模型\(f(x)\)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為經(jīng)驗風(fēng)險(empirical risk)或經(jīng)驗損失(empirical loss),記作\(R_{emp}\):
? ? ? ? \(R_{emp}(f) = \frac{1}{N} \sum\limits_{i=1}^{n} L(y_{i},~f(x_{i}))\)
? ? 期望風(fēng)險\(R_{exp}(f)\)是模型關(guān)于聯(lián)合分布的期望損失,經(jīng)驗風(fēng)險\(R_{emp}(f)\)是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律,當(dāng)樣本容量N趨于無窮時,經(jīng)驗風(fēng)險\(R_{emp}f(x)\)趨于期望風(fēng)險\(R_{exp}f(x)\),所以一個很自然的想法是用經(jīng)驗風(fēng)險估計期望風(fēng)險。但是,由于現(xiàn)實中訓(xùn)練樣本數(shù)目有限甚至很小,所以用經(jīng)驗風(fēng)險估計期望風(fēng)險常常并不理想,要對經(jīng)驗風(fēng)險進行一定的矯正,這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。
?
3)經(jīng)驗風(fēng)險最小化
? ? 在假設(shè)空間,損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,經(jīng)驗風(fēng)險函數(shù)式就可以確定,經(jīng)驗風(fēng)險最小化(empirical risk minimizatiion, ERM)的策略認為,經(jīng)驗風(fēng)險最小的模型是最優(yōu)模型。
? ? ? \(\min\limits_{f \in F} \frac{1}{N} \sum\limits_{i=1}^{n} L(y_{i},~f(x_{i}))\)
? ? 當(dāng)樣本容量是夠大時,經(jīng)驗風(fēng)險最小化能保證有很好的學(xué)習(xí)效果,在現(xiàn)實中被廣泛應(yīng)用,比如,極大似然估計(maximum likelihood estimation)就是經(jīng)驗風(fēng)險最小化的一個例子,當(dāng)模型是條件概率分布,損失函數(shù)是對數(shù)損失函數(shù)時,經(jīng)驗風(fēng)險最小化就等價于極大似然估計。
? ? 但是,當(dāng)樣本容量很小時,經(jīng)驗風(fēng)險最小化學(xué)習(xí)的效果就未必很好,會產(chǎn)生“過擬合(over-fitting)”現(xiàn)象。
?
4)結(jié)構(gòu)化風(fēng)險最小化
? ? 結(jié)構(gòu)化風(fēng)險最小化(structural risk minimization, SRM)是為了防止過擬合而提出來的策略。結(jié)構(gòu)風(fēng)險在經(jīng)驗風(fēng)險上加上表示模型復(fù)雜度的正則化項(regularizer)或罰項(penalty term)。在假設(shè)空間,損失函數(shù)以及訓(xùn)練數(shù)據(jù)集確定的情況下,結(jié)構(gòu)風(fēng)險的定義是:
? ? ? ? \(R_{srm}(f) = \frac{1}{N} \sum\limits_{i=1}^{n}L(y_{i},~f(x_{i}))~+~ \lambda J(f)\)
? ? 其中\(zhòng)(J(f)\)為模型的復(fù)雜度,是定義在假設(shè)空間 F 上的泛函,模型 f 越復(fù)雜,復(fù)雜度\(J(f)\)就越大;反之,模型 f 越簡單,復(fù)雜度\(J(f)\)就越小,也就是說,復(fù)雜度表示了對復(fù)雜模型的懲罰,\(\lambda \geq 0\)是系數(shù),用以權(quán)衡經(jīng)驗風(fēng)險和模型復(fù)雜度,結(jié)構(gòu)風(fēng)險小需要經(jīng)驗風(fēng)險與模型復(fù)雜度同時小,結(jié)構(gòu)風(fēng)險小的模型往往對訓(xùn)練數(shù)據(jù)以及未知的測試數(shù)據(jù)都有較好的預(yù)測。
? ? 結(jié)構(gòu)風(fēng)險最小化的策略認為結(jié)構(gòu)風(fēng)險最小的模型是最優(yōu)的模型:
? ? ? ? \(\min\limits_{f \in F} \frac{1}{N} \sum\limits_{i=1}^{n}L(y_{i},~f(x_{i}))~+~ \lambda J(f)\)
?
算 法
? ? 算法是指學(xué)習(xí)模型的具體計算方法,統(tǒng)計學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后需要考慮用什么樣的計算方式求解最優(yōu)模型。
轉(zhuǎn)載于:https://www.cnblogs.com/pennant/p/3304738.html
總結(jié)
以上是生活随笔為你收集整理的《统计学习方法》读书笔记(1)---学习的要素的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 离别与省
- 下一篇: Windows server 2012体