PAC理论
基礎
1、假設空間:模型會將輸入有一個對應的輸出映射,映射集為假設空間
2、泛化誤差:真實情況下模型的誤差,與真實情況的偏離 就是泛化誤差
3、錯誤率(error rate):分類錯誤的樣本數占總樣本的比例
4、“精度”(accuracy):就是1-錯誤率
5、誤差(error ):實際預測輸出和樣本真實輸出之間的差異
6、訓練誤差/經驗誤差(training error):學習器在訓練集上的誤差
7、過擬合(overfitting):在訓練時把訓練誤差弄到了最小,某種程度上在真實規律的基礎上把訓練樣本一些自身的“特點”也融入了進來,會導致泛化能力降低(也就是說訓練樣本結果很好,測試結果不一定好)。
欠擬合(underfitting):和過擬合相反,對訓練樣本的一般性質沒學好
8、過擬合的原因:最常見的是學習能力過于強大,把很多訓練樣本特有的屬性也學習進來了(解決這個問題挺麻煩的,無法徹底避免,只能“緩解”)
欠擬合的原因:學習能力不行(解決方案:決策樹中擴展分支,神經網絡學習中增加訓練輪數等。)
過擬合無法解決的一個解釋:當前的機器學習問題一般都是NP問題甚至更難,如果能用經驗誤差最小化獲得最優解,那么就構造性證明了“P=NP”;如果相信“P≠NP”,過擬合就不可避免。
關于p、np問題http://blog.csdn.net/qq_32679835/article/details/77969584
一、什么是pca理論
機器學習其實就是優化算法(假設選擇算法)從一個假設空間中選擇一個假設,而pca關心 是否 能從假設空間中學習一個好的假設
pca辨識的條件:
1、近似正確:泛化誤差很小E(h)≤?
2、可能正確:有一個正態分布,是一個大概率事件即可
給定一個值δ,假設h滿足P(h近似正確)≥1?δ
即P(E(h)≤?)≥1?δ
二、什么條件可以滿足PCA可學習
根據:Hoeffding不等式
泛化誤差E(h)與經驗誤差E^(h)的定義易知E(E^(h))=E(h),經驗誤差的期望等于泛化誤差,根據霍思丁不等式可得:
(1)
即是:
(2)
可以看到只要樣本數量m足夠大,假設空間|H|足夠小, 訓練的結果基本與真實結果相同,樣本數太小會導致過擬合
只要樣本數量m大于M時PAC是可學習的。
總結
- 上一篇: 平面设计新手怎么构思设计?有什么技巧!
- 下一篇: oracle裁员原因_立足中国30年,甲