周志华《机器学习》读书笔记(一)
文章目錄
- 如何使用
- 一、緒論
- 1.1 引言
- 1.2 基本術語
- 1.3 假設空間
- 1.4 歸納偏好
- 1.5 發展歷程
- 1.6 應用現狀
- 共勉
如何使用
1、《西瓜書》是一本教科書。
?
??《西瓜書》的誕生,其主因在于周志華老師要開設“機器學習”課。而作為一本教科書,《西瓜書》不是無所不包的,也不是一本“從入門到精通”的書籍。
?
2、《西瓜書》是一本入門級的教科書。
?
??周老師認為,入門階段最需要的乃是理清基本概念、了解領域風貌。在入門階段,“顧及細微”應該讓位于“觀其大略”。否則難免只見樹木,不見森林。故而,從一定程度上講,《西瓜書》是一張”機器學習的初級地形圖“。
??其次,機器學習領域中存在眾多學派。周老師認為,理解學派間的包容等價,在進階之后對融會貫通大有裨益。但在入門階段,初學者看到各自的本來面貌更為重要。因此,《西瓜書》盡可能從材料的”原生態“出發講述。
?
3、《西瓜書》是一本面向理工科高年級本科生和研究生的教科書。
?
??“對前沿領域的學習,必然要有基礎知識作為先導”。讀者若僅需對機器學習做一般了解,只需略過細節觀其大概;若想深入,則應當對相關知識稍作復習,自行推導。
?
4、《西瓜書》不妨多讀幾遍。
一、緒論
1.1 引言
?
?? “傍晚小街路面上沁出微雨后的濕潤,和煦的細風吹來,抬頭看看天邊的晚霞,嗯,明天又是一個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青緑西瓜,一邊滿心期待著皮薄肉厚瓤甜的爽落感,一邊愉快地想著,這學期狠下了工夫,基礎概念弄得清清楚楚,算法作業也是信手拈來,這門課的成績一定差不了!”
?
??機器學習致力于研究如何通過計算的手段,利用經驗來改善系統自身的性能。在這里,“經驗”,即“數據”。
?
?? 機器學習的主要研究內容是關于在計算機上從數據中產生“模型”的算法,即“學習算法”。
?
1.2 基本術語
?
1、一組記錄的集合稱為一個“數據集”,其中每條記錄是關于一個事件或對象的描述,稱為一個“示例”或“樣本”。
??由于空間中的每個點對應一個坐標向量,因此一個示例也稱為一個“特征向量”。
?
2、反映事件或對象在某方面的表現或性質的事項,稱為“屬性”或“特征”。
??屬性上的取值稱為“屬性值”。
??屬性張成的空間稱為“屬性空間”、“樣本空間”或“輸入空間”。
?
3、從數據中學得的模型的過程稱為“學習”或“訓練”。這個過程通過執行某個學習算法來完成。
??訓練過程中使用的數據稱為“訓練數據”,其中每個樣本稱為一個“訓練樣本”,訓練樣本組成的集合稱為“訓練集”。
??學得模型對應了關于數據的某種潛在的規律,因此亦稱為“假設”。這種潛在規律自身,則稱為“真相”或“真實”。
??學習的過程就是為了找出或逼近真相。
?
4、關于示例結果的信息稱為“標記”,擁有了標記信息的示例稱為“樣例”。所有標記的集合稱為“標記空間”或“輸出空間”。
?
5、若欲預測的是離散值,此類學習任務稱為“分類”;若欲預測的是連續值,則此類學習任務稱為“回歸”。
??對只涉及兩個類別的“二分類”任務,通常稱其中一個類為“正類”,另一個類為“反類”。涉及多個類別師,則稱為“多分類”任務。
??一般地,預測任務是希望通過對訓練集{(x1,y1),(x2,y2),......(xm,ym){(x1,y1),(x2,y2),......(xm,ym)}(x1,y1),(x2,y2),......(xm,ym)}進行學習,建立一個從輸入空間X到輸出空間Y的映射 fff : XXX?\longrightarrow?YYY。
?
6、學得模型后,使用其進行預測的過程稱為“測試”,被預測的樣本稱為“測試樣本”。
?
7、根據訓練數據是否擁有標記信息,學習任務可大致劃分為兩大類:“監督學習”(主要代表:分類和回歸)和“無監督學習”(主要代表:聚類)。
?
8、機器學習的目標是使學得的模型能很好地適用于“新樣本”,而不是僅僅在訓練樣本上工作得很好。學得模型適用于新樣本的能力,稱為“泛化能力”,具有強泛化能力的模型能很好地適用于整個樣本空間。
???通常假設樣本空間中全體樣本服從一個未知“分布”DDD,我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”。一般而言,訓練的樣本越多,得到的關于DDD的信息越多,越有可能通過學習獲得具有強泛化能力的模型。
?
1.3 假設空間
?
??歸納和演繹是科學推理的兩大基本手段。
?
??前者是從特殊到一般的“泛化”過程,即從具體的事實歸結出一般性規律;ExampleExampleExample:在數學公理系統中,基于一組公理和推理規則推導出與之相恰的定理,這是“演繹”。
??后者則是從一般到特殊的“特化”過程,即從基礎原理推演出具體情況。ExampleExampleExample:“從樣例中學習”是一個歸納的過程,因此也稱“歸納學習”。
?
??歸納學習分廣義和狹義。廣義的歸納學習相當于從樣例中學習,而狹義的歸納學習為則要求從數據中學得概念,因此也稱“概念學習”或“概念形成”。概念學習中最基本的是布爾概念學習,即對“是”“不是”這樣的可以表示為0/1布爾值的目標概念的學習。
?
??學習過程可以看作一個在所有假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集“匹配”的假設。即能夠將訓練集中的內容判斷正確的假設。
?
??需要注意的是,現實問題中我們常面臨很大的假設空間,但學習過程是基于有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在著一個與訓練集一致的假設集合,稱之為“版本空間”。
?
1.4 歸納偏好
?
??對于一個具體的學習算法而言,它必須要產生一個模型。這時,學習算法本身的“偏好”就會起到關鍵的作用。
??機器學習算法在學習過程中對某種類型假設的偏好,稱為“歸納偏好”。或簡稱為“偏好”。
??任何一個有效的機器學習算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上“等效”的假設所迷惑,而無法產生確定的學習效果。
??歸納偏好可看作學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的“價值觀”。“奧卡姆剃刀”原則作為一般性的原則來引導算法確立“正確的”偏好,即“若有多個假設與觀察一致,則選最簡單的那個”。
??事實上,歸納偏好對應了學習算法本身所做出的關于“什么樣的模型更好”的假設。在具體的現實問題中,這個假設是否成立,即算法的歸納偏好是否與問題本身匹配,大多數時候直接決定了算法能否取得好的性能。
??根據相關公式推導可證明:無論學習算法AAA多聰明、學習算法BBB多笨拙。它們的期望性能是相同的!這就是“沒有免費的午餐”定理,簡稱NFL定理。
??NFL定理有一個重要的前提:所有“問題”出現的機會相同、或所有問題同等重要。但事實上很多時候我們只關注自己正在試圖解決的問題,希望為它找到一個解決方案,至于這個解決方案在別的問題、甚至在相似問題上是否為好方案,我們并不關心。
??所以,NFL定理最重要的寓意是讓我們更清楚地認識到:脫離具體問題,空泛地談論“什么學習算法更好”毫無意義,因為若考慮所有潛在的問題,則所有學習算法都一樣好。要談論算法的相對優劣,必須要針對具體的學習問題;在某些問題上表現更好的學習算法,在另一些問題上卻可能不僅如人意,學習算法自身的歸納偏好與問題是否相匹配,往往會起到決定性作用。
?
1.5 發展歷程
?
??1、推理期:基于邏輯和事實規則,出現了幾何定理證明器、語言翻譯等;
??2、知識期:意識到只是對與人工智能系統的重要性,構建專家知識庫,出現專家系統;
??3、學習期:讓計算機自動從數據中分析并獲取規律,然后進行預測,出現了機器學習,伴隨著計算機運算能力的提高,神經網絡重新興起,并促進了深度學習的發展。
?
1.6 應用現狀
?
??計算機視覺、自然語言處理、數據分析……
?
共勉
一下摘自百度“飛槳”畢然老師的話:
1、機器學習,其實很簡單,沒有什么是你理解不了的,關鍵在于實踐!
?
2、細節不可忽略,一忽略就誤入歧途!
?
3、一切技術都不高深,就是一層窗戶紙,捅破了就很easy,捅不破就很hard。所以,絕對的技術壁壘是沒有的。
?
4、一切技術,都是因為你經常用,慢慢就熟練了。坑見多了,就比別人厲害一點了,也就成為了專家;而不是你先成為專家。然后再去用。
總結
以上是生活随笔為你收集整理的周志华《机器学习》读书笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面部口罩识别检测
- 下一篇: DeepLearning based o