小白都看得懂的监督学习与无监督学习
hello~一晃就十一月啦!開始寫簡書也半個月啦!之前對機器學習中的監督學習與無監督學習,只是有個概念,前幾天學習知識的時候,又遇到了,所以打算好好記錄下來。
在理解監督學習和無監督學習之前,我們先來聊一聊什么是機器學習(ML)?
機器學習:
首先呢,學習可以稱為一個舉一反三的過程,舉個栗子:我們在學生時代經常參加的考試,考試的題目在上考場前我們未必做過,但是在考試之前我們通常都會刷很多的題目,通過刷題目學會了解題方法,因此考場上面對陌生問題也可以算出答案。
機器學習的思路也類似:我們可以利用一些訓練數據(已經做過的題),使機器能夠利用它們(解題方法)分析未知數據(考場的題目)。就像考試前老師給我們預測考試會考什么一樣。
簡單一句話:機器學習就是讓機器從大量的數據集中學習,進而得到一個更加符合現實規律的模型,通過對模型的使用使得機器比以往表現的更好。
進入正題~
監督學習
定義:根據已有的數據集,知道輸入和輸出結果之間的關系。根據這種已知的關系,訓練得到一個最優的模型。也就是說,在監督學習中訓練數據既有特征(feature)又有標簽(label),通過訓練,讓機器可以自己找到特征和標簽之間的聯系,在面對只有特征沒有標簽的數據時,可以判斷出標簽。
通俗一點,可以把機器學習理解為我們教機器如何做事情。
監督學習的分類:回歸(Regression)、分類(Classification)??
回歸(Regression)
回歸問題是針對于連續型變量的。
舉個栗子:預測房屋價格
假設想要預測房屋價格,繪制了下面這樣的數據集。水平軸上,不同房屋的尺寸是平方英尺,在豎直軸上,是不同房子的價格,單位是(千萬$)。給定數據,假設一個人有一棟房子,750平方英尺,他要賣掉這棟房子,想知道能賣多少錢。
這個時候,監督學習中的回歸算法就能排上用場了,我們可以根據數據集來畫直線或者二階函數等來擬合數據。
通過 圖像,我們可以看出直線擬合出來的150k,曲線擬合出來是200k,所以要不斷訓練學習,找到最合適的模型得到擬合數據(房價)。
回歸通俗一點就是,對已經存在的點(訓練數據)進行分析,擬合出適當的函數模型y=f(x),這里y就是數據的標簽,而對于一個新的自變量x,通過這個函數模型得到標簽y。
分類(Classification)??
和回歸最大的區別在于,分類是針對離散型的,輸出的結果是有限的。
舉個栗子:估計腫瘤性質
假設某人發現了一個乳腺瘤,在乳腺上有個z腫塊,惡性瘤是危險的、有害的;良性瘤是無害的。
假設在數據集中,水平軸是瘤的尺寸,豎直軸是1或0,也可以是Y或N。在已知腫瘤樣例中,惡性的標為1,良性的標為0.那么,如下,藍色的樣例便是良性的,紅色的是惡性的。
這個時候,機器學習的任務就是估計該腫瘤的性質,是惡性的還是良性的。
那么分類就派上了用場,在這個例子中就是向模型輸入人的各種數據的訓練樣本(這里是腫瘤的尺寸,當然現實生活里會用更多的數據,如年齡等),產生"輸入一個人的數據,判斷是否患有癌癥"的結果,結果必定是離散的,只有“是”或"否"。
所以簡單來說分類就是,要通過分析輸入的特征向量,對于一個新的向量得到其標簽。
無監督學習
定義:我們不知道數據集中數據、特征之間的關系,而是要根據聚類或一定的模型得到數據之間的顧西奈。
可以這么說,比起監督學習,無監督學習更像是自學,讓機器學會自己做事情,是沒有標簽(label)的。
接剛剛上面機器學習解釋時用到的例子來更好理解一下二者的區別:
對于平時的考試來說,監督學習相當于我們做了很多題目都知道它的標準答案,所以在學習的過程中,我們可以通過對照答案,來分析問題找出方法,下一次在面對沒有答案的問題時,往往也可以正確地解決。 而無監督學習,是我們不知道任何的答案,也不知道自己做得對不對,但是做題的過程中,就算不知道答案,我們還是可以大致的將語文,數學,英語這些題目分開,因為這些問題內在還是具有一定的聯系。?
如下圖所示,在無監督學習中,我們只是給定了一組數據,我們的目標是發現這組數據中的特殊結構。例如我們使用無監督學習算法會將這組數據分成兩個不同的簇,這樣的算法就叫聚類算法。
生活中的應用:
1.Google新聞按照內容結構的不同分成財經,娛樂,體育等不同的標簽,這就是無監督學習中的聚類。
2.根據給定基因把人群分類。如圖是DNA數據,對于一組不同的人我們測量他們DNA中對于一個特定基因的表達程序。然后根據測量結果可以用聚類算法將他們分成不同的類型。這就是一種無監督學習,因為我們只是給定了一些數據,而并不知道哪些是第一種類型的人,哪些是第二種類型的人等等。
總結
以上是生活随笔為你收集整理的小白都看得懂的监督学习与无监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [Machine learning] 国
- 下一篇: MD5和Hash