周志华西瓜书学习笔记(一)
周志華西瓜書學習筆記
第一章 緒論
數據處理分為三個階段:收集,分析,預測。
一、基本概念
機器學習致力于研究如何通過計算的手段,利用經驗來改善系統自身的性能。
Mitchell給出的更形式化的定義為:假設用P來評估計算機程序在某任務T上的性能,若一個程序通過利用經驗E在T中獲得了性能改善,我們就可以說T和P,該程序對E進行了學習。
(一)泛化(generalization)
學得的模型適用于新樣本的能力,稱之為泛化能力。具有強泛化能力的模型能夠更好地使用于整個樣本空間。
(二)獨立同分布(i.i.d)
通常假設樣本空間的全體樣本服從一個未知的分布(distribution),我們獲得的每一個樣本都是從整個樣本空間中采樣獲得的,即“獨立同分布”(independent and identically distributed, i.i.d)
二、假設空間大小計算
以文中的西瓜為例,求出假設空間:
這里我們的假設空間由形如“(色澤=?)^ (根蒂=?)^(敲聲=?)”的可能取值所形成的假設組成。
色澤有“青綠”和“烏黑”兩種取值,還需考慮無論色澤取什么值都合適的情況,用通配符(*)表示。色澤屬性共三種取值;
根蒂有“蜷縮”、“硬挺”和“稍蜷”三種取值,同理再加通配符(*)表示,根蒂屬性共四種取值;
敲聲有“濁響”、“清脆”和“沉悶”三種取值,同理再加通配符(*)表示,敲聲屬性共四種取值;
還有一種假設組成——可能"好瓜”這個概念就不成立,我們用?表示這種假設。
那么,所對應的假設組成的個數為:3x4x4+1=49. 即表1所對應的假設空間的規模大小為49. 其中:
具體假設: 2x3x3=18 種
一個通配符:2x3+3x3+2x3=21種
兩個通配符:2+3+3=8 種
三個通配符:1種
概念不存在:1種
三、歸納偏好(inductive bias)
機器學習中對于某種假設類型具有特殊的偏好,成為歸納偏好(inductive bias),任何一個有效的機器學習算法必然都有其歸納偏好,否則無法產生確定的有意義的學習效果,會被“等效”的各個假設所迷惑。
(一)歸納原則——奧卡姆剃刀(Occam’s razor)
Occam’s razor是自然科學研究中最基本的原則,“若有多個假設與觀察結果意志,則選用最簡單的那個”,更平滑意味著更簡單。
(二)沒有免費的午餐定理——NFL(No Free Lunch)定理
對于某一個算法A,在一些問題上的表現優于算法B,必然存在某些問題的表現劣于算法B。
NFL定理出現前提:所有問題出現機會相同,所有問題同等重要。
NFL定理的意義是:脫離了問題本身,討論哪種算法更好將沒有任何意義。若考慮所有潛在問題,所有算法一樣好,要談論算法的優劣,必須要針對具體的學習問題。
總結
以上是生活随笔為你收集整理的周志华西瓜书学习笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Excel快速入门01
- 下一篇: Java入门123:一个老鸟的Java学