當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Machine Learning：十大机器学习算法

發(fā)布時間：2023/12/3 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Machine Learning：十大机器学习算法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

轉(zhuǎn)載自?Machine Learning：十大機器學(xué)習(xí)算法

摘要: - 機器學(xué)習(xí)算法分類：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí) - 基本的機器學(xué)習(xí)算法：線性回歸、支持向量機(SVM)、最近鄰居(KNN)、邏輯回歸、決策樹、k平均、隨機森林、樸素貝葉斯、降維、梯度增強

機器學(xué)習(xí)算法大致可以分為三類：

監(jiān)督學(xué)習(xí)算法 (Supervised Algorithms）:在監(jiān)督學(xué)習(xí)訓(xùn)練過程中，可以由訓(xùn)練數(shù)據(jù)集學(xué)到或建立一個模式（函數(shù) / learning model），并依此模式推測新的實例。該算法要求特定的輸入/輸出，首先需要決定使用哪種數(shù)據(jù)作為范例。例如，文字識別應(yīng)用中一個手寫的字符，或一行手寫文字。主要算法包括神經(jīng)網(wǎng)絡(luò)、支持向量機、最近鄰居法、樸素貝葉斯法、決策樹等。

無監(jiān)督學(xué)習(xí)算法 (Unsupervised Algorithms):這類算法沒有特定的目標(biāo)輸出，算法將數(shù)據(jù)集分為不同的組。

強化學(xué)習(xí)算法 (Reinforcement Algorithms):強化學(xué)習(xí)普適性強，主要基于決策進行訓(xùn)練，算法根據(jù)輸出結(jié)果（決策）的成功或錯誤來訓(xùn)練自己，通過大量經(jīng)驗訓(xùn)練優(yōu)化后的算法將能夠給出較好的預(yù)測。類似有機體在環(huán)境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預(yù)期，產(chǎn)生能獲得最大利益的習(xí)慣性行為。在運籌學(xué)和控制論的語境下，強化學(xué)習(xí)被稱作“近似動態(tài)規(guī)劃”（approximate dynamic programming，ADP）。

基本的機器學(xué)習(xí)算法：

線性回歸算法 Linear Regression

支持向量機算法 (Support Vector Machine,SVM)

最近鄰居/k-近鄰算法 (K-Nearest Neighbors,KNN)

邏輯回歸算法 Logistic Regression

決策樹算法 Decision Tree

k-平均算法 K-Means

隨機森林算法 Random Forest

樸素貝葉斯算法 Naive Bayes

降維算法 Dimensional Reduction

梯度增強算法 Gradient Boosting

1. 線性回歸算法 Linear Regression

回歸分析（Regression Analysis）是統(tǒng)計學(xué)的數(shù)據(jù)分析方法，目的在于了解兩個或多個變量間是否相關(guān)、相關(guān)方向與強度，并建立數(shù)學(xué)模型以便觀察特定變量來預(yù)測其它變量的變化情況。

線性回歸算法（Linear Regression）的建模過程就是使用數(shù)據(jù)點來尋找最佳擬合線。公式，y = m*x + c，其中 y 是因變量，x 是自變量，利用給定的數(shù)據(jù)集求 m 和 c 的值。線性回歸又分為兩種類型，即簡單線性回歸（simple linear regression)，只有 1 個自變量；多變量回歸（multiple regression)，至少兩組以上自變量。

下面是一個線性回歸示例：基于 Python scikit-learn 工具包描述。

from sklearn import linear_model, datasets#digit dataset from sklearndigits = datasets.load_digits()#create the LinearRegression modelclf = linear_model.LinearRegression()#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)

2. 支持向量機算法(Support Vector Machine,SVM)

支持向量機/網(wǎng)絡(luò)算法(SVM)屬于分類型算法。SVM模型將實例表示為空間中的點，將使用一條直線分隔數(shù)據(jù)點。需要注意的是，支持向量機需要對輸入數(shù)據(jù)進行完全標(biāo)記，僅直接適用于兩類任務(wù)，應(yīng)用將多類任務(wù)需要減少到幾個二元問題。

from sklearn import svm, datasets#digit dataset from sklearndigits = datasets.load_digits()#create the Support Vector Classifierclf = svm.SVC(gamma = 0.001, C = 100)#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)

3. 最近鄰居/k-近鄰算法 (K-Nearest Neighbors,KNN)

KNN算法是一種基于實例的學(xué)習(xí)，或者是局部近似和將所有計算推遲到分類之后的惰性學(xué)習(xí)。用最近的鄰居（k）來預(yù)測未知數(shù)據(jù)點。k 值是預(yù)測精度的一個關(guān)鍵因素，無論是分類還是回歸，衡量鄰居的權(quán)重都非常有用，較近鄰居的權(quán)重比較遠鄰居的權(quán)重大。

KNN 算法的缺點是對數(shù)據(jù)的局部結(jié)構(gòu)非常敏感。計算量大，需要對數(shù)據(jù)進行規(guī)范化處理，使每個數(shù)據(jù)點都在相同的范圍。

from sklearn import datasetsfrom sklearn.neighbors import KNeighborsClassifier#digit dataset from sklearndigits = datasets.load_digits()#create the KNeighborsClassifierclf = KNeighborsClassifier(n_neighbors=6)#set training setx, y = digits.data[:-1], digits.target[:-1]#train modelclf.fit(x, y)#predicty_pred = clf.predict([digits.data[-1]])y_true = digits.target[-1]print(y_pred)print(y_true)

延伸：KNN 的一個缺點是依賴于整個訓(xùn)練數(shù)據(jù)集，學(xué)習(xí)向量量化（Learning Vector Quantization，LVQ)是一種監(jiān)督學(xué)習(xí)的人神經(jīng)網(wǎng)絡(luò)算法，允許你選擇訓(xùn)練實例。LVQ 由數(shù)據(jù)驅(qū)動，搜索距離它最近的兩個神經(jīng)元，對于同類神經(jīng)元采取拉攏，異類神經(jīng)元采取排斥，最終得到數(shù)據(jù)的分布模式。如果基于 KNN 可以獲得較好的數(shù)據(jù)集分類效果，利用 LVQ 可以減少存儲訓(xùn)練數(shù)據(jù)集存儲規(guī)模。典型的學(xué)習(xí)矢量量化算法有LVQ1、LVQ2和LVQ3，尤以LVQ2的應(yīng)用最為廣泛。

4. 邏輯回歸算法 Logistic Regression

邏輯回歸算法（Logistic Regression）一般用于需要明確輸出的場景，如某些事件的發(fā)生（預(yù)測是否會發(fā)生降雨）。通常，邏輯回歸使用某種函數(shù)將概率值壓縮到某一特定范圍。例如，Sigmoid 函數(shù)（S 函數(shù)）是一種具有 S 形曲線、用于二元分類的函數(shù)。它將發(fā)生某事件的概率值轉(zhuǎn)換為 0, 1 的范圍表示。

Y = E ^（b0＋b1 * x）/（1 + E ^（b0＋b1 * x ））

以上是一個簡單的邏輯回歸方程，B0，B1是常數(shù)。這些常數(shù)值將被計算獲得，以確保預(yù)測值和實際值之間的誤差最小。

5. 決策樹算法 Decision Tree

決策樹（Decision tree）是一種特殊的樹結(jié)構(gòu)，由一個決策圖和可能的結(jié)果（例如成本和風(fēng)險）組成，用來輔助決策。機器學(xué)習(xí)中，決策樹是一個預(yù)測模型，樹中每個節(jié)點表示某個對象，而每個分叉路徑則代表某個可能的屬性值，而每個葉節(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出，通常該算法用于解決分類問題。

一個決策樹包含三種類型的節(jié)點：

決策節(jié)點：通常用矩形框來表示

機會節(jié)點：通常用圓圈來表示

終結(jié)點：通常用三角形來表示

簡單決策樹算法案例，確定人群中誰喜歡使用信用卡?？紤]人群的年齡和婚姻狀況，如果年齡在30歲或是已婚，人們更傾向于選擇信用卡，反之則更少。通過確定合適的屬性來定義更多的類別，可以進一步擴展此決策樹。在這個例子中，如果一個人結(jié)婚了，他超過30歲，他們更有可能擁有信用卡（100% 偏好）。測試數(shù)據(jù)用于生成決策樹。

注意：對于那些各類別樣本數(shù)量不一致的數(shù)據(jù)，在決策樹當(dāng)中信息增益的結(jié)果偏向于那些具有更多數(shù)值的特征。

6. k-平均算法 K-Means

k-平均算法(K-Means)是一種無監(jiān)督學(xué)習(xí)算法，為聚類問題提供了一種解決方案。 K-Means 算法把 n 個點（可以是樣本的一次觀察或一個實例）劃分到 k 個集群（cluster），使得每個點都屬于離他最近的均值（即聚類中心，centroid）對應(yīng)的集群。重復(fù)上述過程一直持續(xù)到重心不改變。

7. 隨機森林算法 Random Forest

隨機森林算法（Random Forest）的名稱由 1995 年由貝爾實驗室提出的random decision forests 而來，正如它的名字所說的那樣，隨機森林可以看作一個決策樹的集合。隨機森林中每棵決策樹估計一個分類，這個過程稱為“投票（vote）”。理想情況下，我們根據(jù)每棵決策樹的每個投票，選擇最多投票的分類。

PaperRandom Forest |Leo Breiman | Statistics Department University of California Berkeley

8. 樸素貝葉斯算法 Naive Bayes

樸素貝葉斯算法（Naive Bayes）基于概率論的貝葉斯定理，應(yīng)用非常廣泛，從文本分類、垃圾郵件過濾器、醫(yī)療診斷等等。樸素貝葉斯適用于特征之間的相互獨立的場景，例如利用花瓣的長度和寬度來預(yù)測花的類型?！皹闼亍钡膬?nèi)涵可以理解為特征和特征之間獨立性強。

與樸素貝葉斯算法密切相關(guān)的一個概念是最大似然估計(Maximum likelihood estimation)，歷史上大部分的最大似然估計理論也都是在貝葉斯統(tǒng)計中得到大發(fā)展。例如，建立人口身高模型，很難有人力與物力去統(tǒng)計全國每個人的身高，但是可以通過采樣，獲取部分人的身高，然后通過最大似然估計來獲取分布的均值與方差。

Naive Bayes is called naive because it assumes that each input variable is independent.

9. 降維算法 Dimensional Reduction

在機器學(xué)習(xí)和統(tǒng)計學(xué)領(lǐng)域，降維是指在限定條件下，降低隨機變量個數(shù)，得到一組“不相關(guān)”主變量的過程，并可進一步細分為特征選擇和特征提取兩大方法。

一些數(shù)據(jù)集可能包含許多難以處理的變量。特別是資源豐富的情況下，系統(tǒng)中的數(shù)據(jù)將非常詳細。在這種情況下，數(shù)據(jù)集可能包含數(shù)千個變量，其中大多數(shù)變量也可能是不必要的。在這種情況下，幾乎不可能確定對我們的預(yù)測影響最大的變量。此時，我們需要使用降維算法，降維的過程中也可能需要用到其他算法，例如借用隨機森林，決策樹來識別最重要的變量。

10. 梯度增強算法 Gradient Boosting

梯度增強算法（Gradient Boosting）使用多個弱算法來創(chuàng)建更強大的精確算法。它與使用單個估計量不同，而是使用多個估計量創(chuàng)建一個更穩(wěn)定和更健壯的算法。梯度增強算法有幾種：

XGBoost — 使用線性和樹算法

LightGBM — 只使用基于樹的算法梯度增強算法的特點是精度較高。此外，LightGBM 算法具有令人難以置信的高性能。

總結(jié)

以上是生活随笔為你收集整理的Machine Learning：十大机器学习算法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：相同配置的电脑笔记本比台式贵多少？
下一篇：为什么电脑提示此网络中另一台计算机与此计

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Machine Learning：十大机器学习算法

總結(jié)