统计学习方法的三要素
統計學習方法的三要素
方法=模型+策略+算法
模型
- 定義1:決策函數的集合
- 決策函數的集合:F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}??
- XXX和YYY是定義在輸入空間和輸出空間上的變量,F\mathcal{F}F?通常是由一個參數向量決定的函數族
- 參數空間:F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}F={f∣Y=fθ?(X),θ∈Rn}?
- 參數向量θθθ取決于n維歐式空間Rn\mathbf{R}^{n}Rn,稱為參數空間
- 決策函數的集合:F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}??
- 定義2:條件概率的集合
- 條件概率的集合:F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}?
- XXX和YYY是定義在輸入空間和輸出空間上的變量,F\mathcal{F}F通常是由一個參數向量決定的條件概率分布族
- 參數空間:F={P∣Pθ(Y∣X),θ∈Rn}\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}F={P∣Pθ?(Y∣X),θ∈Rn}
- 參數向量θθθ取決于n維歐式空間Rn\mathbf{R}^{n}Rn,稱為參數空間
- 條件概率的集合:F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}?
策略
相關概念
- 損失函數:一次預測的好壞
- 風險函數:平均意義下模型預測的好壞
損失函數分類
- 0-1損失函數 0-1 loss function: L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y, f(X))= \begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}L(Y,f(X))={1,0,?Y?=f(X)Y=f(X)??
- 平方損失函數 quadratic loss function L(Y,f(X))=(Y?f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Y?f(X))2
- 絕對損失函數 absolute loss function L(Y,f(X))=∣Y?f(X)∣L(Y, f(X))=|Y-f(X)|L(Y,f(X))=∣Y?f(X)∣
- 對數損失函數 logarithmic loss function 或對數似然損失函數 loglikelihood loss function L(Y,P(Y∣X))=?log?P(Y∣X)L(Y, P(Y \mid X))=-\log P(Y \mid X)L(Y,P(Y∣X))=?logP(Y∣X)
風險函數
? 損失函數的期望 Rexp?(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyR_{\exp }(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrmze8trgl8bvbq x \mathrm{~d} yRexp?(f)=EP?[L(Y,f(X))]=∫X×Y?L(y,f(x))P(x,y)dx?dy,這是理論上模型f(x)f(x)f(x)關于聯合分布P(X,Y)P(X,Y)P(X,Y)的平均意義下的損失,稱為風險函數(risk function )或期望損失(expected loss)。由P(x,y)可以直接求出P(x|y),但不知道。
? 學習目標就是選擇期望風險最小的模型。
? 經驗風險:假設訓練數據集為T={(x1,y1),(x2,y2),?,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1?,y1?),(x2?,y2?),?,(xN?,yN?)},則模型f(x)f(x)f(x)關于訓練數據集的平均損失稱為經驗風險或經驗損失,記作Remp?(f)=1N∑i=1NL(yi,f(xi))R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)Remp??(f)=N1?∑i=1N?L(yi?,f(xi?))。
經驗風險最小化和結構風險最小化
-
經驗風險最小化最優模型
min?f∈F1N∑i=1NL(yi,f(xi))\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) f∈Fmin?N1?i=1∑N?L(yi?,f(xi?)) -
當樣本容量很小時,經驗風險最小化學習的效果未必很好,會產生“過擬合over-fitting”
-
結構風險最小化 (structure risk minimization),為防止過擬合提出的策略,等價于正則化(regularization),加入正則化項(regularizer),或罰項(penalty term):
Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{\mathrm{srm}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) Rsrm?(f)=N1?i=1∑N?L(yi?,f(xi?))+λJ(f)
J(f)J(f)J(f)為模型復雜度,是定義在假設空間F\mathcal{F}F上的泛函,復雜度表示了對復雜模型的懲罰。λ≥0\lambda≥0λ≥0?是系數,用以權衡經驗風險和模型復雜度。 -
則相應的結構風險最小化最優模型
-
min?f∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) f∈Fmin?N1?i=1∑N?L(yi?,f(xi?))+λJ(f)
算法
- 算法是指學習模型的具體計算方法。
- 如果最優化問題有顯式的解析式,算法比較簡單,但通常解析式不存在,就需要數值計算的方法
總結
以上是生活随笔為你收集整理的统计学习方法的三要素的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计学习综述
- 下一篇: MapReduce流程(WordCoun