机器学习基石第三讲:types of learning
博客已經遷移至Marcovaldo’s blog (http://marcovaldong.github.io/)
剛剛完畢機器學習基石的第三講。這一講主要介紹了機器學習的分類。對何種問題應該使用何種機器學習方法。將筆記整理在以下。
Learning with Different Output Space
前面講的信用卡發放問題是一個是非題,也就是說最后的輸出僅僅有兩種。是一個二元分類(binary classification)。下圖中給出了很多其它的二元分類問題的樣例。對于這類問題我們要做的就是找到一個hypothesis(超平面或超曲面)能夠非常好的將下圖中的圈圈和叉叉分開。當然。后面我們介紹很多其它的解決二元分類問題的算法。
以下要介紹的是多元分類(multiclass classification)。
這里給出了一個實際的樣例:販賣機怎樣將不同面額的硬幣分開(美元中的硬幣有四種),這就是一個多元分類問題。多元分類問題是非常多應用。特別是在計算機視覺等方面,下圖介紹了當中的幾種:
以下介紹回歸分析(regrssion)。
我們如今讓機器做這樣一件事,輸入進去病人的狀況,輸出病人恢復健康須要的時間。
這里的輸出應該是在一個正實數域。對于這種輸出空間是一個連續的區間的問題。我們稱之為回歸分析問題(輸出空間有上下限的話稱為bound regression)。比方依據一家公司以往的數據來分析其股票價格就是一個典型的回歸分析問題。回歸分析在統計學中是一類重要的問題。其構成了機器學習的又一數學基礎。
如今我們考慮這樣一個問題:給定一個句子,我們讓機器來自己主動標出句子中每一個單詞的詞性(名詞/動詞/代詞/副詞等)。能夠想象這個問題的輸出空間存在著某種邏輯在里邊,但又不能用窮舉法(一個是輸出空間太大,還有一個是某些組合方式不存在:如一個句子中不可能全是動詞等)。所以我們希望讓機器去學習到當中的一些結構。能夠正確的處理句子。
相似這種輸出空間巨大且暗含某種結構的,我們稱之為結構化學習(structured learning)。
這里簡介了多元分類、回歸分析、結構化學習。是為了告訴大家機器學習不僅僅是為了解決是非題,還有很多其它的復雜形式。只是這里最核心的是二元分類和回歸分析。
最后是小測試:
Learning with Different Data Label
相似上面講的硬幣分類的問題我們稱之為監督式學習(supervised learning),所謂監督是指我們不僅向機器提供了每一枚硬幣的重量、尺寸等,我們還提供每一枚硬幣的分類結果(就是該硬幣實際的面額)。
相相應地,假設我們僅僅給出硬幣的重量、尺寸等信息而沒有給出硬幣的實際分類結果,我們讓機器自己想辦法將硬幣分成k類。這種問題我們稱之為聚類(clustering)。以下給出了一個對照圖,左側圖中的數據點已經被標記了不同的顏色,表示機器已經知道每一個數據點所屬的類別;而右側圖中的數據點還沒有標記類別,須要機器從數據中學到這些數據點應該分幾類,以及每一個數據點應該分到哪一類(這個問題更復雜)。
下圖給出了幾種非監督式學習:聚類(clustering)、密度分析(density estimation)、異常檢測(outlier detection)。想要了解很多其它的話能夠翻看我之前的博客
前面說了監督式學習和非監督式學習,以下介紹半監督式學習(semi-supervised learning)。
在半監督式學習中,我們給機器的數據集中僅僅有非常少一部分數據是被標記的,我們希望機器從這種數據集中學到一些東西。
比方,社交站點上人臉識別。我們僅僅標出非常少一部分照片的類別(姓名等)。然后讓機器幫助我們去完畢標記工作。半監督式學習用在人工標記數據的成本非常高的問題上。
視頻中還介紹了增強式學習(reinforcement learning)。大意是說當機器犯錯時會作出相應的懲處項以修正hypothesis。當機器分類正確時給予一定的獎勵(就好比訓練寵物狗時。當狗作出正確的反應時給吃的,錯了不給),相關知識會在以后的博客中具體介紹。
最后是小測試:
Learning with Different Protocol
在垃圾郵件分類系統中,我們通常先搜集大量的郵件。比方說2000封,并標注好每一封郵件的類別,然后將整個訓練數據集輸入給機器,機器從中學習到分類的技巧。我們稱這種學習方式為批量(batch)學習。
相應的。我們將數據一條一條的輸入給機器。機器推斷其類別。依據其結果的正確性相應修正hypothesis,這種學習方式成為在線(online)學習。
PLA算法、增強式學習通常應用于在線學習。
近期又發展處了能夠主動“問問題”的機器學習算法,比方有一個手寫識別的機器,其主動寫出一個數字(比方8),人工去標記它(標記為8)。然后機器就知道了“哦,相似這種手寫數字可能是哪個(可能是8)”。相似這種學習方式,我們稱之為主動(active)學習。
主動學習使機器能夠有技巧的主動“問問題”。通經常使用于標記數據成本昂貴的問題。
下圖給了三者的一個形象比喻。這個課程主要介紹批量學習。
然后本小節測試:
Learning with Different Input Space
這一小節講的是特征project(feature engineering):將原始的數據轉化為真正能夠作為機器學習的training set的過程。特征project實際上用到了一些待處理問題所在領域的一些相關問題,比較復雜,在后面的課程還會介紹。實際上這一小節要告訴大家的是,我們要對最原始的數據進行特征提取等處理后,再輸入給機器,去做機器學習。
本節小測試:
最后一張圖是對這一講內容的概括。
轉載于:https://www.cnblogs.com/yutingliuyl/p/7338982.html
總結
以上是生活随笔為你收集整理的机器学习基石第三讲:types of learning的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: Android7.0 Doze模式分析(
 - 下一篇: SQL Server--实体再复习