统计学习方法之机器学习相关理论
AI算法工程師手冊
一、監督學習
感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸、支持向量機、提升方法、
二、無監督學習
聚類方法、奇異值分解、主成分分析
分類算法:knn,樸素貝葉斯、決策樹、支持向量機、集成方法
回歸算法:
knn:
對于離散型的因變量來說,從K個最近的已知類別樣本中挑選出頻率最高的類別用于未知樣本的判斷;
對于連續型因變量來說,則是將K個最近的已知樣本的均值用于未知樣本的預測。
步驟:
1)確定未知樣本近鄰的個數K值;
2)根據某種度量樣本間的相似度的指標(如歐氏距離)將每一個未知類別樣本的最近k個已知樣本搜尋出來,形成一個簇;
3)對搜尋出的已知樣本進行投票,將各簇下類別最多的分類用作未知樣本點的預測。
樸素貝葉斯:
通過已知類別的訓練數據集,計算樣本的先驗概率,然后利用貝葉斯概率公式測算未知類別樣本屬于某個類別的后驗概率,最終以最大后驗概率所對應的類別作為樣本的預測值。
線性回歸:
根據已知的變量(自變量)來預測某個連續數值變量(因變量)
邏輯斯蒂回歸
非線性模型,專門用來解決二分類得到離散問題,相對于其他很多分類算法(SVM,神經網絡,隨機森林等)來說,具有很強的可解釋性。
分類模型的評估方法:混淆矩陣(confusion_matrix) ,指標:accuracy,sensitivity(正例覆蓋率)、specificity
ROC曲線(roc_curve):通過可視化的方法實現模型好壞的評估:x軸:1- specificity,y軸:sensitivity(折線下的面積:AUC,越大越好)
K-S曲線:
KS=sensitivity+specificity-1
決策樹
if_then思想,可以用于數值型因變量的預測和離散型因變量的分類
隨機森林:多顆決策樹構成的集合
k-means
Means算法的思想很簡單,對于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個簇。讓簇內的點盡量緊密的連在一起,而讓簇間的距離盡量的大。
算法步驟:
1.(隨機)選擇K個聚類的初始中心;
2.對任意一個樣本點,求其到K個聚類中心的距離,將樣本點歸類到距離最小的中心的聚類,如此迭代n次;
3.每次迭代過程中,利用均值等方法更新各個聚類的中心點(質心);
4.對K個聚類中心,利用2,3步迭代更新后,如果位置點變化很小(可以設置閾值),則認為達到穩定狀態,迭代結束,對不同的聚類塊和聚類中心可選擇不同的顏色標注。
優點
1)原理比較簡單,實現也是很容易,收斂速度快。
2)聚類效果較優。
3)算法的可解釋度比較強。
4)主要需要調參的參數僅僅是簇數k。
總結
以上是生活随笔為你收集整理的统计学习方法之机器学习相关理论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.政策与定价
- 下一篇: 第13章 集成学习和随机森林