Machine Learning:十大机器学习算法
轉(zhuǎn)載自?Machine Learning:十大機器學(xué)習(xí)算法
摘要: - 機器學(xué)習(xí)算法分類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí) - 基本的機器學(xué)習(xí)算法:線性回歸、支持向量機(SVM)、最近鄰居(KNN)、邏輯回歸、決策樹、k平均、隨機森林、樸素貝葉斯、降維、梯度增強
機器學(xué)習(xí)算法大致可以分為三類:
監(jiān)督學(xué)習(xí)算法 (Supervised Algorithms):在監(jiān)督學(xué)習(xí)訓(xùn)練過程中,可以由訓(xùn)練數(shù)據(jù)集學(xué)到或建立一個模式(函數(shù) / learning model),并依此模式推測新的實例。該算法要求特定的輸入/輸出,首先需要決定使用哪種數(shù)據(jù)作為范例。例如,文字識別應(yīng)用中一個手寫的字符,或一行手寫文字。主要算法包括神經(jīng)網(wǎng)絡(luò)、支持向量機、最近鄰居法、樸素貝葉斯法、決策樹等。
無監(jiān)督學(xué)習(xí)算法 (Unsupervised Algorithms):這類算法沒有特定的目標(biāo)輸出,算法將數(shù)據(jù)集分為不同的組。
強化學(xué)習(xí)算法 (Reinforcement Algorithms):強化學(xué)習(xí)普適性強,主要基于決策進行訓(xùn)練,算法根據(jù)輸出結(jié)果(決策)的成功或錯誤來訓(xùn)練自己,通過大量經(jīng)驗訓(xùn)練優(yōu)化后的算法將能夠給出較好的預(yù)測。類似有機體在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。在運籌學(xué)和控制論的語境下,強化學(xué)習(xí)被稱作“近似動態(tài)規(guī)劃”(approximate dynamic programming,ADP)。
基本的機器學(xué)習(xí)算法:
線性回歸算法 Linear Regression
支持向量機算法 (Support Vector Machine,SVM)
最近鄰居/k-近鄰算法 (K-Nearest Neighbors,KNN)
邏輯回歸算法 Logistic Regression
決策樹算法 Decision Tree
k-平均算法 K-Means
隨機森林算法 Random Forest
樸素貝葉斯算法 Naive Bayes
降維算法 Dimensional Reduction
梯度增強算法 Gradient Boosting
1. 線性回歸算法 Linear Regression
回歸分析(Regression Analysis)是統(tǒng)計學(xué)的數(shù)據(jù)分析方法,目的在于了解兩個或多個變量間是否相關(guān)、相關(guān)方向與強度,并建立數(shù)學(xué)模型以便觀察特定變量來預(yù)測其它變量的變化情況。
線性回歸算法(Linear Regression)的建模過程就是使用數(shù)據(jù)點來尋找最佳擬合線。公式,y = m*x + c,其中 y 是因變量,x 是自變量,利用給定的數(shù)據(jù)集求 m 和 c 的值。 線性回歸又分為兩種類型,即 簡單線性回歸(simple linear regression),只有 1 個自變量;多變量回歸(multiple regression),至少兩組以上自變量。
下面是一個線性回歸示例:基于 Python scikit-learn 工具包描述。
from sklearn import linear_model, datasets#digit dataset from sklearndigits = datasets.load_digits()#create the LinearRegression modelclf = linear_model.LinearRegression()#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)
2. 支持向量機算法(Support Vector Machine,SVM)
支持向量機/網(wǎng)絡(luò)算法(SVM)屬于分類型算法。SVM模型將實例表示為空間中的點,將使用一條直線分隔數(shù)據(jù)點。需要注意的是,支持向量機需要對輸入數(shù)據(jù)進行完全標(biāo)記,僅直接適用于兩類任務(wù),應(yīng)用將多類任務(wù)需要減少到幾個二元問題。
from sklearn import svm, datasets#digit dataset from sklearndigits = datasets.load_digits()#create the Support Vector Classifierclf = svm.SVC(gamma = 0.001, C = 100)#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)
3. 最近鄰居/k-近鄰算法 (K-Nearest Neighbors,KNN)
KNN算法是一種基于實例的學(xué)習(xí),或者是局部近似和將所有計算推遲到分類之后的惰性學(xué)習(xí)。用最近的鄰居(k)來預(yù)測未知數(shù)據(jù)點。k 值是預(yù)測精度的一個關(guān)鍵因素,無論是分類還是回歸,衡量鄰居的權(quán)重都非常有用,較近鄰居的權(quán)重比較遠鄰居的權(quán)重大。
KNN 算法的缺點是對數(shù)據(jù)的局部結(jié)構(gòu)非常敏感。計算量大,需要對數(shù)據(jù)進行規(guī)范化處理,使每個數(shù)據(jù)點都在相同的范圍。
from sklearn import datasetsfrom sklearn.neighbors import KNeighborsClassifier#digit dataset from sklearndigits = datasets.load_digits()#create the KNeighborsClassifierclf = KNeighborsClassifier(n_neighbors=6)#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)
延伸:KNN 的一個缺點是依賴于整個訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)向量量化(Learning Vector Quantization,LVQ)是一種監(jiān)督學(xué)習(xí)的人神經(jīng)網(wǎng)絡(luò)算法,允許你選擇訓(xùn)練實例。LVQ 由數(shù)據(jù)驅(qū)動,搜索距離它最近的兩個神經(jīng)元,對于同類神經(jīng)元采取拉攏,異類神經(jīng)元采取排斥,最終得到數(shù)據(jù)的分布模式。如果基于 KNN 可以獲得較好的數(shù)據(jù)集分類效果,利用 LVQ 可以減少存儲訓(xùn)練數(shù)據(jù)集存儲規(guī)模。典型的學(xué)習(xí)矢量量化算法有LVQ1、LVQ2和LVQ3,尤以LVQ2的應(yīng)用最為廣泛。
4. 邏輯回歸算法 Logistic Regression
邏輯回歸算法(Logistic Regression)一般用于需要明確輸出的場景,如某些事件的發(fā)生(預(yù)測是否會發(fā)生降雨)。通常,邏輯回歸使用某種函數(shù)將概率值壓縮到某一特定范圍。 例如,Sigmoid 函數(shù)(S 函數(shù))是一種具有 S 形曲線、用于二元分類的函數(shù)。它將發(fā)生某事件的概率值轉(zhuǎn)換為 0, 1 的范圍表示。
Y = E ^(b0+b1 * x)/(1 + E ^(b0+b1 * x ))
以上是一個簡單的邏輯回歸方程,B0,B1是常數(shù)。這些常數(shù)值將被計算獲得,以確保預(yù)測值和實際值之間的誤差最小。
5. 決策樹算法 Decision Tree
決策樹(Decision tree)是一種特殊的樹結(jié)構(gòu),由一個決策圖和可能的結(jié)果(例如成本和風(fēng)險)組成,用來輔助決策。機器學(xué)習(xí)中,決策樹是一個預(yù)測模型,樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表某個可能的屬性值,而每個葉節(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,通常該算法用于解決分類問題。
一個決策樹包含三種類型的節(jié)點:
決策節(jié)點:通常用矩形框來表示
機會節(jié)點:通常用圓圈來表示
終結(jié)點:通常用三角形來表示
簡單決策樹算法案例,確定人群中誰喜歡使用信用卡??紤]人群的年齡和婚姻狀況,如果年齡在30歲或是已婚,人們更傾向于選擇信用卡,反之則更少。 通過確定合適的屬性來定義更多的類別,可以進一步擴展此決策樹。在這個例子中,如果一個人結(jié)婚了,他超過30歲,他們更有可能擁有信用卡(100% 偏好)。測試數(shù)據(jù)用于生成決策樹。
注意:對于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。
6. k-平均算法 K-Means
k-平均算法(K-Means)是一種無監(jiān)督學(xué)習(xí)算法,為聚類問題提供了一種解決方案。 K-Means 算法把 n 個點(可以是樣本的一次觀察或一個實例)劃分到 k 個集群(cluster),使得每個點都屬于離他最近的均值(即聚類中心,centroid)對應(yīng)的集群。重復(fù)上述過程一直持續(xù)到重心不改變。
7. 隨機森林算法 Random Forest
隨機森林算法(Random Forest)的名稱由 1995 年由貝爾實驗室提出的random decision forests 而來,正如它的名字所說的那樣,隨機森林可以看作一個決策樹的集合。 隨機森林中每棵決策樹估計一個分類,這個過程稱為“投票(vote)”。理想情況下,我們根據(jù)每棵決策樹的每個投票,選擇最多投票的分類。
PaperRandom Forest |Leo Breiman | Statistics Department University of California Berkeley
8. 樸素貝葉斯算法 Naive Bayes
樸素貝葉斯算法(Naive Bayes)基于概率論的貝葉斯定理,應(yīng)用非常廣泛,從文本分類、垃圾郵件過濾器、醫(yī)療診斷等等。樸素貝葉斯適用于特征之間的相互獨立的場景,例如利用花瓣的長度和寬度來預(yù)測花的類型?!皹闼亍钡膬?nèi)涵可以理解為特征和特征之間獨立性強。
與樸素貝葉斯算法密切相關(guān)的一個概念是最大似然估計(Maximum likelihood estimation),歷史上大部分的最大似然估計理論也都是在貝葉斯統(tǒng)計中得到大發(fā)展。例如,建立人口身高模型,很難有人力與物力去統(tǒng)計全國每個人的身高,但是可以通過采樣,獲取部分人的身高,然后通過最大似然估計來獲取分布的均值與方差。
Naive Bayes is called naive because it assumes that each input variable is independent.
9. 降維算法 Dimensional Reduction
在機器學(xué)習(xí)和統(tǒng)計學(xué)領(lǐng)域,降維是指在限定條件下,降低隨機變量個數(shù),得到一組“不相關(guān)”主變量的過程,并可進一步細分為特征選擇和特征提取兩大方法。
一些數(shù)據(jù)集可能包含許多難以處理的變量。特別是資源豐富的情況下,系統(tǒng)中的數(shù)據(jù)將非常詳細。在這種情況下,數(shù)據(jù)集可能包含數(shù)千個變量,其中大多數(shù)變量也可能是不必要的。在這種情況下,幾乎不可能確定對我們的預(yù)測影響最大的變量。此時,我們需要使用降維算法,降維的過程中也可能需要用到其他算法,例如借用隨機森林,決策樹來識別最重要的變量。
10. 梯度增強算法 Gradient Boosting
梯度增強算法(Gradient Boosting)使用多個弱算法來創(chuàng)建更強大的精確算法。它與使用單個估計量不同,而是使用多個估計量創(chuàng)建一個更穩(wěn)定和更健壯的算法。梯度增強算法有幾種:
XGBoost — 使用線性和樹算法
LightGBM — 只使用基于樹的算法 梯度增強算法的特點是精度較高。此外,LightGBM 算法具有令人難以置信的高性能。
總結(jié)
以上是生活随笔為你收集整理的Machine Learning:十大机器学习算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 相同配置的电脑笔记本比台式贵多少?
- 下一篇: 为什么电脑提示此网络中另一台计算机与此计