【人工智能】机器学习西瓜书11——经验误差与过拟合,模型评估的方法,均方误差,错误率与精度,最优阈值
機器學習——西瓜書從頭讀到尾11
- 一種訓練集一種算法
- 經驗誤差與過擬合
- 模型評估的方法
- 訓練集
- 測試集保留方法
- 驗證集
- 性能測量
- 均方誤差
- 錯誤率與精度
- 查準率查全率
- 最優閾值
- 一個二分類(一張PR)
- n個二分類實現的多分類
我們按訓練集預算法的關系進行劃分。
一種訓練集一種算法
經驗誤差與過擬合
- 誤差: 學習器的實際預測輸出與樣本的真實輸出之間的差異;比如一組數據 1,2,4,5.使用閾值3,將其分為兩類。假設學習器的分類結果為 1和 2,4, 5 。但是實際的結果為1,2,和4,5,分錯的2就是誤差。
- 經驗誤差:訓練集的誤差,也叫訓練誤差。相對于經驗誤差的,還有大家經常遇到的泛化誤差,泛化誤差是在新樣本(測試集)的誤差。
- 過擬合:當學習器把訓練樣本學的“太好”了的時候,很可能已經把訓練樣本特點當作了潛在樣本都會具有的一般性質,這會導致泛化性能下降。與過擬合相對的是“欠擬合”,這是指對訓練樣本的一般性質尚未學好。
模型評估的方法
訓練集
測試集保留方法
- 留出法:三七或二八,但注意訓練集測試集同分布,或多次隨機劃分訓練多個模型取平均值
- k折交叉驗證法:將訓練集隨機等分為k份,取其中一份為驗證集評估模型,其余k-1份為訓練集訓練模型,重復該步驟k次,每次都取一份不同的子集為驗證集,最終得到k個不同的模型(不是對一個模型迭代k次)和k個評分,綜合這k個模型的表現(平均得分或其他)評估模型在當前問題中的優劣。
- 自助法:原數據集DDD是一個包含m個樣本的數據集,通過自助法有放回的重復抽樣m次,每次抽取1個數據,放到D′D'D′中,D′D'D′中也有mmm個樣本,同時,原來的數據集D中不被D’包含的數據作為驗證集。到底會有多少數據作為驗證集呢?周老師給出了原數據集DDD一次也未被抽中的數據的概率為:
lim?m→∞(1?1m)m→1e≈0.368\lim\limits_{m \to \infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx0.368m→∞lim?(1?m1?)m→e1?≈0.368理論狀態下,驗證集為0.368?m0.368*m0.368?m條數據
適用:數據集較小難以劃分時。缺點:改變初始分布,引入估計誤差。
驗證集
調參用,調參難度大,很多參數人為規定,為了調參,常加一個數據集進行驗證,訓練及訓練,驗證集看結果,調參,再訓練…
性能測量
均方誤差
在預測任務中,給定樣例集D=(x1,y1),(x2,y2),...,(xm,ym)D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}D=(x1?,y1?),(x2?,y2?),...,(xm?,ym?)中是示例xix_ixi?的真實標記,要評估學習器fff的性能,就要把學習器預測結果f(x)f(x)f(x)與真實標記yyy進行比較
{均方誤差:E(f:D)=1m∑i=1m(f(xi)?yi)2對于數據分布D和概率密度函數p(?):E(f:D)=∫x~D(f(xi)?yi)2p(x)dx\left\{ \begin{aligned} & 均方誤差:E(f:D)=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &對于數據分布D和概率密度函數p(\cdot ):E(f:D)=\int_{x\sim D}(f(x_i)-y_i)^2p(x)dx \end{aligned} \right. ???????????均方誤差:E(f:D)=m1?i=1∑m?(f(xi?)?yi?)2對于數據分布D和概率密度函數p(?):E(f:D)=∫x~D?(f(xi?)?yi?)2p(x)dx?
錯誤率與精度
查準率查全率
查準率:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP?
你認為的好瓜里面真的是好瓜的比例。
查全率:R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP?
我預測的里面好瓜占真正好瓜的比例
以查準率為縱軸、查全率為橫軸作圖 ,就得到
了查準率-查全率曲線,簡稱 “P-R曲線”
若一個學習器的 P-R 曲線被另一個學習器的曲線完全"包住 " , 則可斷言后者的性能優于前者。但往往學習器的 P-R 曲線發生了交叉難以斷言兩者孰優孰劣?在很多情形下,人們往往仍希望把學習器 A 與 B 比出個高低 . 這時一個比較合理的判據是比較 P-R 曲線節面積的大小,它在一定程度上表征了學習器在查準率和查全率上取得相對"雙高"的比例.但這個值不太容易估算,因此人們設計了一些綜合考慮查準率 、 查全率的性能度量 。
最優閾值
一個二分類(一張PR)
Fbeta加權的調和平均:對查準率和查全率的重視程度有所不同,β\betaβ = 1,退化為標準的 F1; β\betaβ> 1 時查全率有更大影響 ; β\betaβ< 1 時查準率有更大影響。
n個二分類實現的多分類
這里我們詳細說一下如何分解n個二分類實現多分類,主要有先計算再求和,先求和再計算兩方面:
總結
以上是生活随笔為你收集整理的【人工智能】机器学习西瓜书11——经验误差与过拟合,模型评估的方法,均方误差,错误率与精度,最优阈值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WhatsApp创始人:从领救济到身价6
- 下一篇: linux内核空间和用户空间认识和区别