(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01
目錄
- 1.3 假設空間
- 1.4 歸納偏好
- 2.1 經驗誤差與過擬合
- 2.3 性能度量
- 2.3.1 錯誤率與精度
1.3 假設空間
學習過程:在所有假設空間中搜索,為了使搜索結果與訓練集一致,可以修改或刪除假設。
那么西瓜的色澤、根蒂、敲聲就是樣本的屬性/特征,假設空間就是由數據集屬性/特征的所有值組成的空間。學習過程就是就是學習符合“好瓜”特征的值。
所有假設空間:
倘若“色澤”有3種取值,那樣本空間則為4,因為還包括任意值 *;
總假設空間還要+1,即加上空集,沒有“好瓜”。
假設空間搜索方式可以自頂向下或自底向上等,可能根據數據集情況而定。
1.4 歸納偏好
怎么判斷哪一個瓜“更好”,是盡可能特殊,還是盡可能一般? 如果不選擇偏好,模型無法判斷更好,某個瓜時而是好瓜時而是壞瓜就沒有意義了。
常用奧卡姆剃刀原則:“若有多個假設與觀察一致,選擇最簡單的”。即曲線越平滑的,方程次數越小的。
但是可能出現,訓練集外的數據更符合復雜的B模型而不是簡單的A模型。傳說中的No free lunch? 沒有免費的午餐定理?若算法a在某些問題上比算法b好,那么必然存在另一些問題,在這些問題中b比a性能更優。沒有單一的,通用的最佳機器學習算法,必須根據數據和背景知識來選擇合適的機器學習模型。
誤差公式:
公式解讀:
用訓練集X訓練出的模型a,和實際目標函數 f 的誤差 = 對于不同假設h,訓練集外每個樣本的概率 ×\times× 分類結果 ×\times× 訓練集訓練a模型得到假設h的概率之和
其中,分類結果只有在不正確的時候,也就是h(x)≠f(x)的時候,指示函數Ⅱ(h(x)≠f(x))才為1。所以公式只會對分類不正確的概率求和。
2.1 經驗誤差與過擬合
欠擬合易解決,改善學習能力即可,如決策樹擴展分支、神經網絡增加訓練輪數等; 而過擬合只能緩解。 通過評估,選擇泛化誤差最小的模型,即最優模型(model selection).
用測試誤差作為泛化誤差的近似,而不是等同于泛化誤差,所以文中假設測試集是獨立同分布采樣而得。于是為了采樣合理,提到不同測試集劃分方法,如“留出法” 、“交叉驗證法” 和“自助法”。
訓練集:用于訓練模型
驗證集:用于模型選擇和調參
測試集:用于評估模型實際使用時的泛化能力
2.3 性能度量
均方誤差公式解讀:m個預測值f(xi)與實際值yi誤差的平方和的均值
SSE, Sum of squared errors (和方差): 預測數據和原始數據對應點誤差的平方和(平方是為了忽略預測值-實際值差的正負號)
MSE, mean square error (均方方差):SSEnSSE \over nnSSE?
若SSE是正方形,那MSE就是平均大小的正方形:
2.3.1 錯誤率與精度
錯誤率公式:
公式解讀:預測錯誤的個數樣本總數預測錯誤的個數 \over 樣本總數樣本總數預測錯誤的個數?
對Ⅱ(f(xi)≠yi) 求和,即預測值f(xi)不等于實際值yi的個數,也就是預測錯誤的個數。
精度公式:
公式解讀:預測正確的個數樣本總數預測正確的個數 \over 樣本總數樣本總數預測正確的個數? = 1- 錯誤率
總結
以上是生活随笔為你收集整理的(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【老鸟进阶】deepfacelab合成参
- 下一篇: 排序:归并排序(C)