机器学习基础算法
機(jī)器學(xué)習(xí)基礎(chǔ)算法
機(jī)器學(xué)習(xí)基礎(chǔ)
線性模型
決策樹
樸素貝葉斯
SVM
集成學(xué)習(xí)(Boosting、隨機(jī)森林)
一、機(jī)器學(xué)習(xí)概述
1、機(jī)器學(xué)習(xí)
定義: 假設(shè)用 P 來評(píng)估計(jì)算機(jī)程序在某任務(wù)類 T 上的性能,若一個(gè)程序通過利用經(jīng)驗(yàn) E 在 T 中任務(wù)上獲得了性能改善,則我們就說關(guān)于 T 和 P,該程序?qū)?E 進(jìn)行了學(xué)習(xí)。
術(shù)語:
- 示例(instance)/ 樣本(sample): 一個(gè)對(duì)象。
- 數(shù)據(jù)集(data set):一組對(duì)象的集合。
- 屬性(attribute)/ 特征(feature):對(duì)象在某方面的表現(xiàn)或性質(zhì)的事項(xiàng)。
- 屬性值 / 特征值:對(duì)象的屬性/特征的取值。
- 樣本空間(sample space):屬性張成的空間,空間大小=各屬性可能取值個(gè)數(shù)的乘積。
- 假設(shè)空間(hypothesis):各屬性的可能取值的組合,各屬性的取值可能為 *(通配),空集也是一種可能的取值組合。
- 泛化(generalization): 學(xué)得的模型適用于新樣本的能力。
- 監(jiān)督學(xué)習(xí)(supervised learning):訓(xùn)練樣本有標(biāo)記,分類和回歸。
- 無監(jiān)督學(xué)習(xí)(unsupervised learning):訓(xùn)練樣本無標(biāo)記,聚類。
可以把學(xué)習(xí)的過程看作一個(gè)在假設(shè)空間進(jìn)行搜索的過程,搜索的目標(biāo)是找到與訓(xùn)練集匹配(fit)的假設(shè)。可能存在多個(gè)匹配的假設(shè),稱為版本空間(version space)。根據(jù)歸納偏好(盡可能特殊 / 盡可能一般)選擇符合的假設(shè)作為模型。
2、模型評(píng)估與選擇
過擬合與欠擬合:有學(xué)習(xí)算法和數(shù)據(jù)內(nèi)涵共同決定
- 過擬合:算法學(xué)習(xí)能力強(qiáng),數(shù)據(jù)量/特征少,把個(gè)別樣本的特征總結(jié)為數(shù)據(jù)集的普遍規(guī)律,泛化性能差。
- 欠擬合:算法學(xué)習(xí)能力差,數(shù)據(jù)量/特征多,學(xué)習(xí)到的規(guī)律過于普遍,訓(xùn)練集的預(yù)測結(jié)果差。
評(píng)估方法:訓(xùn)練集、驗(yàn)證集
- 留出法:把數(shù)據(jù)集拆分成訓(xùn)練集、驗(yàn)證集
- 自助法:有放回的隨機(jī)采樣
- 交叉驗(yàn)證法:
調(diào)參和最終模型:
- 調(diào)參:網(wǎng)絡(luò)搜索,或者用指數(shù)法不斷縮小調(diào)參的范圍。
- 最終模型:劃分測試集,在驗(yàn)證集上對(duì)不同模型進(jìn)行評(píng)估選出最優(yōu)的,然后在測試集上測試最終模型的性能。
偏差與方差:
- 偏差:度量學(xué)習(xí)算法的期望預(yù)測與真實(shí)結(jié)果的偏離程度,即擬合能力。偏差大錢擬合。
- 方差:度量同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即數(shù)據(jù)擾動(dòng)所造成的影響。方差大過擬合。
- 偏差和方差是沖突的。
二、線性模型
1、基本形式
2、線性回歸(linear regression)
3、邏輯回歸(logistic regression)
4、多分類
5、樣本不平衡
三、決策樹(Decision Tree)
1、決策樹算法
2、信息熵(ID3、C4.5)
3、基尼系數(shù)
4、剪枝
四、樸素貝葉斯(Navie Bayes)
五、SVM
1、SVM基本型
基于訓(xùn)練集 D 在樣本空間中找到一個(gè)劃分超平面,將不同類別的樣本分開,這樣的超平面可能有很多。SVM 功能是找到那個(gè)對(duì)訓(xùn)練樣本局部擾動(dòng)的容忍性最好的那個(gè)超平面,即劃分超平面產(chǎn)生的分類結(jié)果最魯棒,泛化能力最強(qiáng)。
2、核函數(shù)
現(xiàn)實(shí)任務(wù)中,訓(xùn)練樣本不一定是線性可分的(即一個(gè)劃分超平面能將訓(xùn)練樣本正確分類),通常是線性不可分。對(duì)于這樣的問題,可將樣本從原始空間映射到一個(gè)更高維的特征空間,使得樣本在新的特征空間內(nèi)線性可分。如果原始空間是有限維的(屬性有限),那么一定存在一個(gè)高維特征空間使樣本可分。
3、軟間隔和正則化
所有樣本都必須劃分正確,這稱為硬間隔(hard margin),而軟間隔則是允許某些樣本不滿足約束條件:
4、SVR
六、集成學(xué)習(xí)
1、個(gè)體與集成
弱學(xué)習(xí)器的性能應(yīng)好于隨機(jī)預(yù)測,通常使用的是較強(qiáng)的弱學(xué)習(xí)器。
2、Boosting
- 根據(jù)上一輪各樣本的預(yù)測情況調(diào)整該輪各樣本的權(quán)重,上一輪分錯(cuò)的樣本權(quán)重加大
- 根據(jù)該弱學(xué)習(xí)器的預(yù)測效果分配最后預(yù)測的權(quán)重,預(yù)測效果越好權(quán)重越大
3、Bagging
- 采樣剩余的36.8%的樣本可用來做驗(yàn)證集對(duì)弱學(xué)習(xí)器的泛化性能進(jìn)行估計(jì)。
4、隨機(jī)森林
- 樣本喲放回的隨機(jī)采樣
- 從決策樹每個(gè)節(jié)點(diǎn)的屬性集合隨機(jī)選擇 k 個(gè)
5、結(jié)合策略
數(shù)值型輸出:
- 平均法:各個(gè)弱學(xué)習(xí)器的權(quán)重一樣,對(duì)結(jié)果進(jìn)行簡單的平均
- 加權(quán)平均法:各個(gè)弱學(xué)習(xí)器的權(quán)重不一樣,對(duì)結(jié)果進(jìn)行加權(quán)平均
分類任務(wù):
- 絕對(duì)多數(shù)投票法:任一類的得票超過半數(shù)則預(yù)測為該類,否則拒絕預(yù)測
- 相對(duì)多數(shù)投票法:預(yù)測為得票最多的類別
- 加權(quán)投票法:弱學(xué)習(xí)器的分類結(jié)果進(jìn)行加權(quán)投票
學(xué)習(xí)法:
通過另一個(gè)學(xué)習(xí)器來學(xué)習(xí)如何結(jié)合,代表算法是Stacking。
GOOD LUCK!
總結(jié)
- 上一篇: Error running tomcat
- 下一篇: Python 调用 DLL