《机器学习》 周志华学习笔记第一章 绪论(课后习题)
最近需要學習機器學習,有一點點基礎但是很少,希望能通過寫博客的方式和大家交流以及學習達到共同進步的目的。
緒論 :
一、內容
1.基本術語
2.假設空間與版本空間
3.歸納偏好(常用的有奧卡姆剃刀) 沒有免費的午餐定理(No?Free?Lunch?Theorem,NFL,前提建設f均勻分布)式(1.2)顯示總誤差竟然與學習算法無關!告訴我們要談論算法的相對優劣,必須要針對具體的學習問題。學習算法自身的歸納偏好與問題是否匹配,往往會起到決定性的作用!
二、課后答案:
1、表1.1中若只包含編號為1,4的兩個樣例,試給出相應的版本空間。
首先求出這個問題的假設空間。數據集有3個屬性,每個屬性2種取值,加上可能取所有值都合適,‘*’,以及可能所有瓜都不是好瓜的取值空值,一共?3?3?3+1=28種假設,分別為
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
2.色澤=青綠 根蒂=蜷縮 敲聲=沉悶
3.色澤=青綠 根蒂=稍蜷 敲聲=濁響
4.色澤=青綠 根蒂=稍蜷 敲聲=沉悶
5.色澤=烏黑 根蒂=蜷縮 敲聲=濁響
6.色澤=烏黑 根蒂=蜷縮 敲聲=沉悶
7.色澤=烏黑 根蒂=稍蜷 敲聲=濁響
8.色澤=烏黑 根蒂=稍蜷 敲聲=沉悶
9.色澤=青綠 根蒂=蜷縮 敲聲=*
10.色澤=青綠 根蒂=稍蜷 敲聲=*
11.色澤=烏黑 根蒂=蜷縮 敲聲=*
12.色澤=烏黑 根蒂=稍蜷 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
14.色澤=青綠 根蒂=* 敲聲=沉悶
15.色澤=烏黑 根蒂=* 敲聲=濁響
16.色澤=烏黑 根蒂=* 敲聲=沉悶
17.色澤=* 根蒂=蜷縮 敲聲=濁響
18.色澤=* 根蒂=蜷縮 敲聲=沉悶
19.色澤=* 根蒂=稍蜷 敲聲=濁響
20.色澤=* 根蒂=稍蜷 敲聲=沉悶
21.色澤=青綠 根蒂=* 敲聲=*
22.色澤=烏黑 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
24.色澤=* 根蒂=稍蜷 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響
26.色澤=* 根蒂=* 敲聲=沉悶
27.色澤=* 根蒂=* 敲聲=*
28.空集??
版本空間是與訓練集一致的假設集合,因此我們根據數據1,4分別對假設空間中的假設進行搜索,搜索過程不斷刪除與正例不一致的假設,和與反例一致的假設。最終獲得與訓練集一致的假設即可。
得到的版本空間如下:
1.色澤=青綠 根蒂=蜷縮 敲聲=濁響
9.色澤=青綠 根蒂=蜷縮 敲聲=*
13.色澤=青綠 根蒂=* 敲聲=濁響
17.色澤=* 根蒂=蜷縮 敲聲=濁響
21.色澤=青綠 根蒂=* 敲聲=*
23.色澤=* 根蒂=蜷縮 敲聲=*
25.色澤=* 根蒂=* 敲聲=濁響?
2、與使用單個合取式來進行假設表示相比,使用“析合范式”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合范式來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設
這個也是參考了其他人的答案,沒有看明白,有興趣的同學可以去頁面底部查看鏈接文章。
3、若數據包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用于假設選擇
通常認為兩個數據的屬性越相近,則更傾向于將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬于與他最臨近幾個數據的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。
4、本章1.4節在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量l,試證明沒有免費的午餐”定理仍成立
考慮二分類問題,真實目標函數可以是任何函數X->{0, 1},函數空間為2的|X|平方,對所有的可能的f按均勻分布對誤差求和,對l(f(x), h(x))求和是一個常數,所有最后結果與(1.2)除前邊的常數外其他一樣。我覺得這個定理最重要的就是要明白前提f滿足均勻分布。
5.試述機器學習在互聯網搜索的哪些環節起什么作用
1.消息推送,相關推薦
2.分類搜索
課后試題參考??http://blog.csdn.net/icefire_tyh/article/details/52065224
總結
以上是生活随笔為你收集整理的《机器学习》 周志华学习笔记第一章 绪论(课后习题)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: EfficientNet论文阅读笔记
- 下一篇: 《机器学习》 周志华学习笔记第二章 模型