机器学习笔记:误差的来源(bias variance)
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                机器学习笔记:误差的来源(bias  variance)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                1 bias & variance
簡單的模型——bias大,variance小
復雜的模型——bias小,variance大
2 variance
3 bias
黑線——實際的曲線
藍線——我們預測的曲線
4? bias v.s. variance
- ?如果你的模型在訓練集上誤差都很大,那么此時模型應該是欠擬合
- ?如果你的模型在訓練集上誤差很小,但是在測試集上誤差很大,那么此時模型應該是過擬合
5 如何處理欠擬合問題?
????????欠擬合的時候,可能我們的目標函數都不在我們的輸出函數空間內
此時我們可以:
-  添加更多的特征 
- 使用一個更復雜的模型
6 如何處理過擬合問題
機器學習筆記:過擬合_UQI-LIUWJ的博客-CSDN博客
但是這兩種方案都有弊端
- more data——我們可能沒有這么多的數據(很多研究需要人為的數據增強)
- 正則化——限制函數空間(太陡峭的可能就會直接被否掉)
7 【進階】理論層面分析誤差來源
7.1 已知x,y的期望
首先,我們認為數據集是獨立同分布于P(X,Y)的
那么我們已知x的情況下,y希望得到的標簽是
——因為盡管標簽y是取決于x的,但是y與x的對應關系并不是百分百確定的,是一個概率(已知x的情況下每一個y出現的概率),所以我們要用期望的形式表達
7.2?期望的模型
機器學習模型A從數據集D中學習到一個模型
那么對所有可能的數據集,我們有(每個數據集都是滿足分布P的)
不同數據集,習得的模型的期望?
在某一個特定的數據集D上,期望得到的訓練誤差
?
?對于所有滿足分布P的數據集D,期望得到的訓練誤差
7.3 推導運算(提取表示方差的項)
????
?
?在這里,我們首先提取出來表示方差的項。這一項說明了當我們的觀測數據集D變化的時候,學習到的模型如何變化
?7.4 推導運算(提取表示偏差和噪聲的項)
上一小節我們推導出了這個:
?對第二項,我們進行計算
?——noise,y的平均,和當前y之間的差距 的期望
(noise這一項是不能被減少的,因為是數據集的問題)
——bias,y的平均,和當前學習到的模型預測的y之間的差距 的期望
?
?7.5 綜合
總結
以上是生活随笔為你收集整理的机器学习笔记:误差的来源(bias variance)的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 机器学习笔记:过拟合和欠拟合
- 下一篇: pytorch笔记:torch.nn.M
