机器学习概念
過擬合(高方差)
當我們的數據無法滿足我們模型的復雜度時會過擬合,也就是我們的變量過多,模型很復雜,導致在我們的訓練集中我們的將我們的訓練樣本擬合的非常好,但是在測試樣本中測試的準確率比較低,模型的泛化能力差,就會出現過擬合的問題。
通俗一點地來說過擬合就是模型把數據學習的太徹底,以至于把噪聲數據的特征也學習到了,這樣就會導致在后期測試的時候不能夠很好地識別數據,即不能正確的分類,模型泛化能力太差
解決方法:正則化,增加訓練樣本,清洗數據(數據可能不純)
欠擬合(高偏差)
欠擬合就是模型沒有很好地捕捉到數據特征,不能夠很好地擬合數據
解決方法:添加其他特征項(可能因為特種項不足),添加多項式特征(例如將線性模型通過添加二次項或者三次項使模型泛化能力更強),減少正則化參數
欠擬合-過擬合與偏差-方差關系
名稱 欠擬合 過擬合 備注偏差 一定大 較大 主要針對驗證機 方差 一定小 一定大 主要針對驗證機方差(Variance):
描述的是預測值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數據的分布越分散,如下圖右列所示。
偏差(Bias):
描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實數據,如下圖第二行所示。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
- 上一篇: 怎么才能有效灭除家中的蟑螂?
- 下一篇: 顶墙门柜开创者楚楚顶墙用户口碑怎么样?