机器学习(二)监督学习
上面提到的問題和答案只是一個比喻,假如我們想要完成文章分類的任務,則是下面的方式:
監督學習的2個任務:回歸、分類
監督學習有2個主要的任務:
回歸:預測連續的、具體的數值。比如:支付寶里的芝麻信用分數(下面有詳細講解)
分類:對各種事物分門別類,用于離散型(什么是離散?)預測。比如:
?
「回歸」案例:芝麻信用分是怎么來的?
下面要說的是個人信用評估方法——FICO。
他跟芝麻信用類似,用來評估個人的信用狀況。FICO 評分系統得出的信用分數范圍在300~850分之間,分數越高,說明信用風險越小。
下面我們來模擬一下 FICO 的發明過程,這個過程就是監督學習力的回歸。
步驟1:構建問題,選擇模型
我們首先找出個人信用的影響因素,從邏輯上講一個人的體重跟他的信用應該沒有關系,比如我們身邊很講信用的人,有胖子也有瘦子。
而財富總額貌似跟信用有關,因為馬云不講信用的損失是非常巨大的,所以大家從來沒有聽說馬云會不還信用卡!而一個乞丐不講信用的損失是很小的,這條街混不下去了換一條街繼續。
所以根據判斷,找出了下面5個影響因素:
- 付款記錄
- 賬戶總金額
- 信用記錄跨度(自開戶以來的信用記錄、特定類型賬戶開戶以來的信用記錄…)
- 新賬戶(近期開戶數目、特定類型賬戶的開戶比例…)
- 信用類別(各種賬戶的數目)
這個時候,我們就構建了一個簡單的模型:
?
f 可以簡單理解為一個特定的公式,這個公式可以將5個因素跟個人信用分形成關聯。
我們的目標就是得到 f 這個公式具體是什么,這樣我們只要有了一個人的這5種數據,就可以得到一個人的信用分數了。
步驟2:收集已知數據
為了找出這個公式 f,我們需要先收集大量的已知數據,這些數據必須包含一個人的5種數據和他/她的信用狀態(把信用狀態轉化為分數)。
我們把數據分成幾個部分,一部分用來訓練,一部分用來測試和驗證。
步驟3:訓練出理想模型
有了這些數據,我們通過機器學習,就能”猜測”出這5種數據和信用分數的關系。這個關系就是公式 f。
然后我們再用驗證數據和測試數據來驗證一下這個公式是否 OK。
測試驗證的具體方法是:
步驟4:對新用戶進行預測
當我們想知道一個新用戶的信用狀況時,只需要收集到他的這5種數據,套進公式 f 計算一遍就知道結果了!
好了,上面就是一個跟大家息息相關的回歸模型,大致思路就是上面所講的思路,整個過程做了一些簡化,如果想查看完整的過程,可以查看《機器學習-機器學習實操的7個步驟》
分類」案例:如何預測離婚
美國心理學家戈特曼博士用大數據還原婚姻關系的真相,他的方法就是分類的思路。
戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后,便能預測他們是否會離婚,且預測準確率高達94%!他的這項研究還出了一本書《幸福的婚姻》(豆瓣8.4分)。
步驟1:構建問題,選擇模型
戈特曼提出,對話能反映出夫妻之間潛在的問題,他們在對話中的爭吵、歡笑、調侃和情感表露創造了某種情感關聯。通過這些對話中的情緒關聯可以將夫妻分為不同的類型,代表不同的離婚概率。
步驟2:收集已知數據
研究人員邀請了700對夫妻參與實驗。他們單獨在一間屋子里相對坐下,然后談論一個有爭論的話題,比如金錢和性,或是與姻親的關系。默里和戈特曼讓每一對夫妻持續談論這個話題15分鐘,并拍攝下這個過程。觀察者看完這些視頻之后,就根據丈夫和妻子之間的談話給他們打分。
?
步驟3:訓練出理想模型
戈特曼的方法并不是用機器學習來得到結果,不過原理都是類似的。他得到的結論如下:
首先,他們將夫妻雙方的分數標繪在一個圖表上,兩條線的交叉點就可以說明婚姻能否長久穩定。如果丈夫或妻子持續得負分,兩人很可能會走向離婚。重點在于定量談話中正負作用的比率。理想中的比率是5∶1,如果低于這個比例,婚姻就遇到問題了。最后,將結果放在一個數學模型上,這個模型用差分方程式凸顯出成功婚姻的潛在特點。
戈特曼根據得分,將這些夫妻分成5組:
該數學模型呈現了兩種穩定型夫妻(關系和諧的夫妻和關系不和諧的夫妻)和兩種不穩定型夫妻(敵對夫妻和無感夫妻)之間的區別。而據預測,不穩定的夫妻可能會一直保持婚姻關系,盡管他們的婚姻不穩定。
步驟4:對新用戶進行預測
12年以來,每隔一兩年,默里和戈特曼都會與參與研究的那700對夫妻交流。兩個人的公式對離婚率的預測達到了94%的準確率。
主流的監督學習算法
| 樸素貝葉斯 | 分類 | 貝葉斯分類法是基于貝葉斯定定理的統計學分類方法。它通過預測一個給定的元組屬于一個特定類的概率,來進行分類。樸素貝葉斯分類法假定一個屬性值在給定類的影響獨立于其他屬性的 —— 類條件獨立性。 |
| 決策樹 | 分類 | 決策樹是一種簡單但廣泛使用的分類器,它通過訓練數據構建決策樹,對未知的數據進行分類。 |
| SVM | 分類 | 支持向量機把分類問題轉化為尋找分類平面的問題,并通過最大化分類邊界點距離分類平面的距離來實現分類。 |
| 邏輯回歸 | 分類 | 邏輯回歸是用于處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬于一種分類方法。 |
| 線性回歸 | 回歸 | 線性回歸是處理回歸任務最常用的算法之一。該算法的形式十分簡單,它期望使用一個超平面擬合數據集(只有兩個變量的時候就是一條直線)。 |
| 回歸樹 | 回歸 | 回歸樹(決策樹的一種)通過將數據集重復分割為不同的分支而實現分層學習,分割的標準是最大化每一次分離的信息增益。這種分支結構讓回歸樹很自然地學習到非線性關系。 |
| K鄰近 | 分類+回歸 | 通過搜索K個最相似的實例(鄰居)的整個訓練集并總結那些K個實例的輸出變量,對新數據點進行預測。 |
| Adaboosting | 分類+回歸 | Adaboost目的就是從訓練數據中學習一系列的弱分類器或基本分類器,然后將這些弱分類器組合成一個強分類器。 |
| 神經網絡 | 分類+回歸 | 它從信息處理角度對人腦神經元網絡進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網絡。 |
?擴展閱讀:
盤點10大回歸類型:總有一款深得你心 - 知乎
過擬合詳解:監督學習中不準確的「常識」? | 機器之心
?
?
總結
以上是生活随笔為你收集整理的机器学习(二)监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用户密码和cookie,session、
- 下一篇: linux系统给jvm分配来多少内存