【入门】AI模型与模式
目錄1. 機(jī)器學(xué)習(xí)算法1.1. 線性回歸模型1.1.1. 多元線性回歸1.1.2. 多項(xiàng)式回歸1.1.3. 嶺回歸(Ridge Regression)1.1.4. LESSO1.2. 邏輯回歸1.3. KNN1.4. 決策樹(shù), Decision Tree1.5. 集成學(xué)習(xí)1.5.1. Bagging1.5.2. 隨機(jī)森林1.5.3. boosting(Adaptive Boosting,自適應(yīng)增強(qiáng))1.6. 貝葉斯分類(lèi)1.6.1. 樸素貝葉斯1.6.2. 貝葉斯多項(xiàng)式模型1.6.3. 伯努利模型1.6.4. 混合模型1.6.5. 高斯模型1.6.6. 大腦中的貝葉斯2. 聚類(lèi)算法(無(wú)監(jiān)督式學(xué)習(xí))2.1. K-MEANS
本文的目標(biāo),是“簡(jiǎn)單快速”的概括AI的模型和算法類(lèi)型都有哪些,以及能夠解決哪些問(wèn)題。
1. 機(jī)器學(xué)習(xí)算法
1.1. 線性回歸模型
回歸分析(regression analysis)用來(lái)建立方程模擬兩個(gè)或者多個(gè)變量之間如何關(guān)聯(lián)。回歸分析最典型的例子就是“房?jī)r(jià)預(yù)測(cè)”。
拓展知識(shí):
代價(jià)函數(shù)(例如最小二乘法)
相關(guān)系數(shù)
決定系數(shù)
梯度下降法
數(shù)據(jù)歸一化
交叉驗(yàn)證法
過(guò)擬合 & 欠擬合
正則化(Regularized)
階懲罰函數(shù)
L1正則
L2正則
1.1.1. 多元線性回歸
同樣運(yùn)用梯度下降法,求偏導(dǎo),迭代更新權(quán)值,得到最優(yōu)解。
1.1.2. 多項(xiàng)式回歸
例如:以下為多元房?jī)r(jià)特征,進(jìn)行房?jī)r(jià)預(yù)測(cè):
1.1.3. 嶺回歸(Ridge Regression)
代價(jià)函數(shù)采用L2正則化:
嶺回歸最早是用來(lái)處理特征數(shù)多于樣本的情況,現(xiàn)在也用于在估計(jì)中加入偏差,從而得到更好的估計(jì)。同時(shí)也可以解決多重共線性的問(wèn)題。嶺回歸是一種有偏估計(jì)。
1.1.4. LESSO
代價(jià)函數(shù)采用L1正則化:
通過(guò)構(gòu)造一個(gè)一獲得一個(gè)精煉的模型;
擅長(zhǎng)處理具有多重共線性的數(shù)據(jù)
與嶺回歸一樣是有偏估計(jì)。
L1正則化可以使一些指標(biāo)(變量)的系數(shù)為零,解釋力很強(qiáng)。相比而言,嶺回歸估計(jì)系數(shù)等于0的機(jī)會(huì)微乎其微,造成篩選變量困難。
1.2. 邏輯回歸
Sigmoid/Logistic Function
拓展知識(shí):
正確率
召回率
1.3. KNN
算法復(fù)雜度較高(需要比較所有已知實(shí)例與要分類(lèi)的實(shí)例)
當(dāng)其樣本分布不平衡時(shí),比如其中一類(lèi)樣本過(guò)大(實(shí)例數(shù)量過(guò)多)占主導(dǎo)的時(shí)候,新的未知實(shí)例容易被歸類(lèi)為這個(gè)主導(dǎo)樣本,因?yàn)檫@類(lèi)樣本實(shí)例的數(shù)量過(guò)大,但這個(gè)新的末知實(shí)例實(shí)際并沒(méi)有接近目標(biāo)樣本
1.4. 決策樹(shù), Decision Tree
比較適合分析離散數(shù)據(jù)
如果是連續(xù)數(shù)據(jù)要先轉(zhuǎn)成離散數(shù)據(jù)再做分析
1948年,香農(nóng)提出了“信息熵”的概念。
一條信息的信息量大小和它的不確定性有直接的關(guān)系要搞清楚一件非常非常不確定的事情,或者是我們無(wú)所知的事情,需要了解大量信息->信息量的度量就等于不確定性的多少。
原理:通過(guò)各種“熵”來(lái)確認(rèn)判斷準(zhǔn)則(條件優(yōu)先級(jí)),常用的算法方式包括:
ID3算法
決策樹(shù)會(huì)選擇最大化信息增益來(lái)對(duì)結(jié)點(diǎn)進(jìn)行劃分
C4.5算法
信息增益的方法傾向于首先選擇因子數(shù)較多的變量
CART算法
CART用基尼(Gin)系數(shù)最小化準(zhǔn)則來(lái)進(jìn)行特征選擇
決策樹(shù)的適用領(lǐng)域:
適用于小規(guī)模數(shù)據(jù)集
缺點(diǎn):
處理連續(xù)變量不好
類(lèi)別較多時(shí),錯(cuò)誤增加的比較快
不能處理大量數(shù)據(jù)
拓展知識(shí):
預(yù)剪枝
后剪枝
1.5. 集成學(xué)習(xí)
當(dāng)做重要決定時(shí),大家可能都會(huì)考慮吸取多個(gè)專(zhuān)家而不只是一個(gè)人的意見(jiàn)。集成學(xué)習(xí)也是如此。
集成學(xué)習(xí)就是組合多個(gè)學(xué)習(xí)器,最后可以得到一個(gè)更好的學(xué)習(xí)器。
集成學(xué)習(xí)算法:
個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,裝袋(bagging)
隨機(jī)森林(Random forest)
個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,提升(boosting)
Stacking
1.5.1. Bagging
首先,進(jìn)行一種有放回的抽樣~
每個(gè)數(shù)據(jù)集,都采用一種不同的學(xué)習(xí)算法(或者同一個(gè)算法,得到不同的模型)
效果如下:
1.5.2. 隨機(jī)森林
1.5.3. boosting(Adaptive Boosting,自適應(yīng)增強(qiáng))
學(xué)習(xí)器的重點(diǎn)放在“容易”出錯(cuò)的地方——增加出錯(cuò)數(shù)據(jù)的概率(樣本采樣的權(quán)值),從而優(yōu)化權(quán)重。
1.6. 貝葉斯分類(lèi)
例如,判斷垃圾郵件:
P(H): 垃圾郵件的先驗(yàn)概率
P(X): 特定特征的先驗(yàn)概率
P(X|H): 在垃圾郵件中,包含特定特征(比如“辦證”)郵件的概率
P(H|X): 包含特定特征比如“辦證”的郵件屬于垃圾郵件的概率
已上是根據(jù)貝葉斯定理獲得單一事件對(duì)概率的影響。
1.6.1. 樸素貝葉斯
多特征時(shí)的概率計(jì)算,會(huì)導(dǎo)致計(jì)算量巨大……
樸素貝葉斯算法,會(huì)假設(shè)特征X1, X2, X3...之間是相互獨(dú)立的,則
1.6.2. 貝葉斯多項(xiàng)式模型
1.6.3. 伯努利模型
1.6.4. 混合模型
1.6.5. 高斯模型
1.6.6. 大腦中的貝葉斯
Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn't mttaer in waht oredr the Itteers in a wrod are, the olny iprmoetnt ting is taht the frist and Isat Itter be at the rghit pclae. The rset can be a toatl mses and you can sitll raed it withuot porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey I teter by istlef, but the wrod as a wlohe.
研表究明,漢字的序順并不定一能影閱響讀,比如當(dāng)你看完這句話后,才發(fā)這現(xiàn)里的字全是亂的。
2. 聚類(lèi)算法(無(wú)監(jiān)督式學(xué)習(xí))
2.1. K-MEANS
以下為例,先隨機(jī)定義元素的類(lèi)型:
G:歸類(lèi)
C:計(jì)算重心,然后調(diào)整中心點(diǎn)
先從沒(méi)有標(biāo)簽的元素集合A中隨機(jī)取k個(gè)元素,作為 k 個(gè)子集各自的重心。
分別計(jì)算剩下的元素到 k 個(gè)子集重心的距離(這里的距離也可以使用歐氏距離),根據(jù)距離將這些元素分別劃歸到最近的子集
根據(jù)聚類(lèi)結(jié)果,重新計(jì)算重心(重心的計(jì)算方法是計(jì)算子集中所有元素各個(gè)維度的算數(shù)平均數(shù))
將集合A中全部元素按照新的重心然后再重新聚類(lèi)。
重復(fù)第4步,直到聚類(lèi)結(jié)果不再發(fā)生變化。
總結(jié)
以上是生活随笔為你收集整理的【入门】AI模型与模式的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: APP的缓存文件到底应该存在哪?看完这篇
- 下一篇: Python模块之pickle(列表,字