入门十大Python机器学习算法(附代码)
今天,給大家推薦最常用的10種機器學習算法,它們幾乎可以用在所有的數據問題上:
1、線性回歸
線性回歸通常用于根據連續變量估計實際數值(房價、呼叫次數、總銷售額等)。我們通過擬合最佳直線來建立自變量和因變量的關系。這條最佳直線叫做回歸線,并且用 Y= a *X + b 這條線性等式來表示。
理解線性回歸的最好辦法是回顧一下童年。假設在不問對方體重的情況下,讓一個五年級的孩子按體重從輕到重的順序對班上的同學排序,你覺得這個孩子會怎么做?他(她)很可能會目測人們的身高和體型,綜合這些可見的參數來排列他們。這是現實生活中使用線性回歸的例子。實際上,這個孩子發現了身高和體型與體重有一定的關系,這個關系看起來很像上面的等式。
在這個等式中:
-
Y:因變量
-
a:斜率
-
x:自變量
-
b :截距
系數 a 和 b 可以通過最小二乘法獲得。
參見下例。我們找出最佳擬合直線?y=0.2811x+13.9。已知人的身高,我們可以通過這條等式求出體重。
線性回歸的兩種主要類型是一元線性回歸和多元線性回歸。一元線性回歸的特點是只有一個自變量。多元線性回歸的特點正如其名,存在多個自變量。找最佳擬合直線的時候,你可以擬合到多項或者曲線回歸。這些就被叫做多項或曲線回歸。
Python 代碼
2、邏輯回歸
別被它的名字迷惑了!這是一個分類算法而不是一個回歸算法。該算法可根據已知的一系列因變量估計離散數值(比方說二進制數值 0 或 1 ,是或否,真或假)。簡單來說,它通過將數據擬合進一個邏輯函數來預估一個事件出現的概率。因此,它也被叫做邏輯回歸。因為它預估的是概率,所以它的輸出值大小在 0 和 1 之間(正如所預計的一樣)。
讓我們再次通過一個簡單的例子來理解這個算法。
假設你的朋友讓你解開一個謎題。這只會有兩個結果:你解開了或是你沒有解開。想象你要解答很多道題來找出你所擅長的主題。這個研究的結果就會像是這樣:假設題目是一道十年級的三角函數題,你有 70%的可能會解開這道題。然而,若題目是個五年級的歷史題,你只有30%的可能性回答正確。這就是邏輯回歸能提供給你的信息。
從數學上看,在結果中,幾率的對數使用的是預測變量的線性組合模型。
在上面的式子里,p 是我們感興趣的特征出現的概率。它選用使觀察樣本值的可能性最大化的值作為參數,而不是通過計算誤差平方和的最小值(就如一般的回歸分析用到的一樣)。
現在你也許要問了,為什么我們要求出對數呢?簡而言之,這種方法是復制一個階梯函數的最佳方法之一。我本可以更詳細地講述,但那就違背本篇指南的主旨了。
Python代碼
3、KNN(K – 最近鄰算法)
該算法可用于分類問題和回歸問題。然而,在業界內,K – 最近鄰算法更常用于分類問題。K – 最近鄰算法是一個簡單的算法。它儲存所有的案例,通過周圍k個案例中的大多數情況劃分新的案例。根據一個距離函數,新案例會被分配到它的 K 個近鄰中最普遍的類別中去。
這些距離函數可以是歐式距離、曼哈頓距離、明式距離或者是漢明距離。前三個距離函數用于連續函數,第四個函數(漢明函數)則被用于分類變量。如果 K=1,新案例就直接被分到離其最近的案例所屬的類別中。有時候,使用 KNN 建模時,選擇 K 的取值是一個挑戰。
更多信息:K – 最近鄰算法入門(簡化版)
我們可以很容易地在現實生活中應用到 KNN。如果想要了解一個完全陌生的人,你也許想要去找他的好朋友們或者他的圈子來獲得他的信息。
在選擇使用 KNN 之前,你需要考慮的事情:
-
KNN 的計算成本很高。
-
變量應該先標準化(normalized),不然會被更高范圍的變量偏倚。
-
在使用KNN之前,要在野值去除和噪音去除等前期處理多花功夫。
4、支持向量機
這是一種分類方法。在這個算法中,我們將每個數據在N維空間中用點標出(N是你所有的特征總數),每個特征的值是一個坐標的值。
舉個例子,如果我們只有身高和頭發長度兩個特征,我們會在二維空間中標出這兩個變量,每個點有兩個坐標(這些坐標叫做支持向量)。
現在,我們會找到將兩組不同數據分開的一條直線。兩個分組中距離最近的兩個點到這條線的距離同時最優化。
?上面示例中的黑線將數據分類優化成兩個小組,兩組中距離最近的點(圖中A、B點)到達黑線的距離滿足最優條件。這條直線就是我們的分割線。接下來,測試數據落到直線的哪一邊,我們就將它分到哪一類去。
更多請見:支持向量機的簡化
將這個算法想作是在一個 N 維空間玩 JezzBall。需要對游戲做一些小變動:
-
比起之前只能在水平方向或者豎直方向畫直線,現在你可以在任意角度畫線或平面。
-
游戲的目的變成把不同顏色的球分割在不同的空間里。
-
球的位置不會改變。
Python代碼
5、樸素貝葉斯
在預示變量間相互獨立的前提下,根據貝葉斯定理可以得到樸素貝葉斯這個分類方法。用更簡單的話來說,一個樸素貝葉斯分類器假設一個分類的特性與該分類的其它特性不相關。舉個例子,如果一個水果又圓又紅,并且直徑大約是 3 英寸,那么這個水果可能會是蘋果。即便這些特性互相依賴,或者依賴于別的特性的存在,樸素貝葉斯分類器還是會假設這些特性分別獨立地暗示這個水果是個蘋果。
樸素貝葉斯模型易于建造,且對于大型數據集非常有用。雖然簡單,但是樸素貝葉斯的表現卻超越了非常復雜的分類方法。
貝葉斯定理提供了一種從P(c)、P(x)和P(x|c) 計算后驗概率 P(c|x) 的方法。請看以下等式:
在這里,
-
P(c|x) 是已知預示變量(屬性)的前提下,類(目標)的后驗概率
-
P(c)?是類的先驗概率
-
P(x|c)?是可能性,即已知類的前提下,預示變量的概率
-
P(x)?是預示變量的先驗概率
例子:讓我們用一個例子來理解這個概念。在下面,我有一個天氣的訓練集和對應的目標變量“Play”。現在,我們需要根據天氣情況,將會“玩”和“不玩”的參與者進行分類。讓我們執行以下步驟。
步驟1:把數據集轉換成頻率表。
步驟2:利用類似“當Overcast可能性為0.29時,玩耍的可能性為0.64”這樣的概率,創造 Likelihood 表格。
步驟3:現在,使用樸素貝葉斯等式來計算每一類的后驗概率。后驗概率最大的類就是預測的結果。
問題:如果天氣晴朗,參與者就能玩耍。這個陳述正確嗎?
我們可以使用討論過的方法解決這個問題。于是 P(會玩 | 晴朗)= P(晴朗 | 會玩)* P(會玩)/ P (晴朗)
我們有 P (晴朗 |會玩)= 3/9 = 0.33,P(晴朗) = 5/14 = 0.36, P(會玩)= 9/14 = 0.64
現在,P(會玩 | 晴朗)= 0.33 * 0.64 / 0.36 = 0.60,有更大的概率。
樸素貝葉斯使用了一個相似的方法,通過不同屬性來預測不同類別的概率。這個算法通常被用于文本分類,以及涉及到多個類的問題。
6、決策樹
這是我最喜愛也是最頻繁使用的算法之一。這個監督式學習算法通常被用于分類問題。令人驚奇的是,它同時適用于分類變量和連續因變量。在這個算法中,我們將總體分成兩個或更多的同類群。這是根據最重要的屬性或者自變量來分成盡可能不同的組別。想要知道更多,可以閱讀:簡化決策樹。
來源:?statsexchange
在上圖中你可以看到,根據多種屬性,人群被分成了不同的四個小組,來判斷 “他們會不會去玩”。為了把總體分成不同組別,需要用到許多技術,比如說 Gini、Information Gain、Chi-square、entropy。
理解決策樹工作機制的最好方式是玩Jezzball,一個微軟的經典游戲(見下圖)。這個游戲的最終目的,是在一個可以移動墻壁的房間里,通過造墻來分割出沒有小球的、盡量大的空間。
因此,每一次你用墻壁來分隔房間時,都是在嘗試著在同一間房里創建兩個不同的總體。相似地,決策樹也在把總體盡量分割到不同的組里去。
更多信息請見:決策樹算法的簡化
Python代碼
7、K 均值算法
K – 均值算法是一種非監督式學習算法,它能解決聚類問題。使用 K – 均值算法來將一個數據歸入一定數量的集群(假設有 k 個集群)的過程是簡單的。一個集群內的數據點是均勻齊次的,并且異于別的集群。
還記得從墨水漬里找出形狀的活動嗎?K – 均值算法在某方面類似于這個活動。觀察形狀,并延伸想象來找出到底有多少種集群或者總體。
K – 均值算法怎樣形成集群:
K – 均值算法給每個集群選擇k個點。這些點稱作為質心。
每一個數據點與距離最近的質心形成一個集群,也就是 k 個集群。
根據現有的類別成員,找出每個類別的質心。現在我們有了新質心。
當我們有新質心后,重復步驟 2 和步驟 3。找到距離每個數據點最近的質心,并與新的k集群聯系起來。重復這個過程,直到數據都收斂了,也就是當質心不再改變。
如何決定 K 值:
K – 均值算法涉及到集群,每個集群有自己的質心。一個集群內的質心和各數據點之間距離的平方和形成了這個集群的平方值之和。同時,當所有集群的平方值之和加起來的時候,就組成了集群方案的平方值之和。
我們知道,當集群的數量增加時,K值會持續下降。但是,如果你將結果用圖表來表示,你會看到距離的平方總和快速減少。到某個值 k 之后,減少的速度就大大下降了。在此,我們可以找到集群數量的最優值。
Python代碼
8、隨機森林
隨機森林是表示決策樹總體的一個專有名詞。在隨機森林算法中,我們有一系列的決策樹(因此又名“森林”)。為了根據一個新對象的屬性將其分類,每一個決策樹有一個分類,稱之為這個決策樹“投票”給該分類。這個森林選擇獲得森林里(在所有樹中)獲得票數最多的分類。
每棵樹是像這樣種植養成的:
如果訓練集的案例數是 N,則從 N 個案例中用重置抽樣法隨機抽取樣本。這個樣本將作為“養育”樹的訓練集。
假如有 M 個輸入變量,則定義一個數字 m<<M。m 表示,從 M 中隨機選中 m 個變量,這 m 個變量中最好的切分會被用來切分該節點。在種植森林的過程中,m 的值保持不變。
盡可能大地種植每一棵樹,全程不剪枝。
Python
?
9、Gradient Boosting?和?AdaBoost 算法
當我們要處理很多數據來做一個有高預測能力的預測時,我們會用到 GBM 和 AdaBoost 這兩種 boosting 算法。boosting 算法是一種集成學習算法。它結合了建立在多個基礎估計值基礎上的預測結果,來增進單個估計值的可靠程度。這些 boosting 算法通常在數據科學比賽如 Kaggl、AV Hackathon、CrowdAnalytix 中很有效。
Python代碼
GradientBoostingClassifier 和隨機森林是兩種不同的 boosting 樹分類器。人們常常問起這兩個算法之間的區別。
10、降維算法
在過去的 4 到 5 年里,在每一個可能的階段,信息捕捉都呈指數增長。公司、政府機構、研究組織在應對著新資源以外,還捕捉詳盡的信息。
舉個例子:電子商務公司更詳細地捕捉關于顧客的資料:個人信息、網絡瀏覽記錄、他們的喜惡、購買記錄、反饋以及別的許多信息,比你身邊的雜貨店售貨員更加關注你。
作為一個數據科學家,我們提供的數據包含許多特點。這聽起來給建立一個經得起考研的模型提供了很好材料,但有一個挑戰:如何從 1000 或者 2000 里分辨出最重要的變量呢?在這種情況下,降維算法和別的一些算法(比如決策樹、隨機森林、PCA、因子分析)幫助我們根據相關矩陣,缺失的值的比例和別的要素來找出這些重要變量。
Python代碼
-END-
總結
以上是生活随笔為你收集整理的入门十大Python机器学习算法(附代码)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python:一篇文章掌握Numpy的基
- 下一篇: IT大佬整理的Python机器学习十大算