应用监督式学习
監(jiān)督學(xué)習(xí)
定義:監(jiān)督式學(xué)習(xí)算法接受已知的輸入數(shù)據(jù)集合(訓(xùn)練集)和已知的對(duì)數(shù)據(jù)的響應(yīng)(輸出),然后訓(xùn)練一個(gè)模型,為新輸入數(shù)據(jù)的響應(yīng)生成合理的預(yù)測(cè)。監(jiān)督學(xué)習(xí)技術(shù)可分成分類或者回歸的形式。
分類:技術(shù)預(yù)測(cè)離散的響應(yīng)。例如,電子郵件是真正郵件還是垃圾郵件,腫瘤是小塊、中等還是大塊。分類模型經(jīng)過訓(xùn)練后,將數(shù)據(jù)劃分成類別。應(yīng)用軟件包括醫(yī)學(xué)成像、語音識(shí)別和信用評(píng)分。分類問題分為:
- 二元分類問題,單個(gè)訓(xùn)練或測(cè)試項(xiàng)目(實(shí)例)只能分成兩類。例如,如果您想確定電子郵件是真正郵件,還是垃圾郵件。
多類分類問題,可以分成多個(gè)類。例如,如果您想訓(xùn)練一個(gè)模型,將圖像分類為狗、貓或其它動(dòng)物。
多類分類問題一般更具挑戰(zhàn)性,因?yàn)樾枰容^復(fù)雜的模型。
回歸:預(yù)測(cè)連續(xù)的響應(yīng)。例如,電力需求中溫度或波動(dòng)的變化。應(yīng)用軟件包括預(yù)測(cè)股價(jià)、筆跡識(shí)別和聲信號(hào)處理。
分類算法
邏輯回歸
工作原理:適合可以預(yù)測(cè)屬于一個(gè)類或另一個(gè)類的二元響應(yīng)概率的模型。因?yàn)檫壿嫽貧w比較簡(jiǎn)單,所以常用作二分類問題的起點(diǎn)。
適用場(chǎng)景:
- 當(dāng)數(shù)據(jù)能由一個(gè)線性邊界清晰劃分時(shí)
- 作為評(píng)估更復(fù)雜分類方法的基準(zhǔn)
示意圖:
k最近鄰(kNN)
工作原理:kNN 根據(jù)數(shù)據(jù)集內(nèi)類的最近鄰關(guān)系劃分對(duì)象的類別。kNN預(yù)測(cè)假定相互靠近的對(duì)象是相似的。距離量度(如歐氏距離、絕對(duì)值距離、夾角余弦和 Chebychev 距離)用來查找最近鄰。
適用場(chǎng)景:當(dāng)您需要簡(jiǎn)單算法來設(shè)立基準(zhǔn)學(xué)習(xí)規(guī)則時(shí)
- 當(dāng)無需太關(guān)注 訓(xùn)練模型的內(nèi)存使用時(shí)
- 當(dāng)無需太關(guān)注 訓(xùn)練模型的預(yù)測(cè)速度時(shí)
支持向量機(jī) (SVM)
工作原理:通過搜索能將全部數(shù)據(jù)點(diǎn)分割開的判別邊界(超平面)對(duì)數(shù)據(jù)進(jìn)行分類。當(dāng)數(shù)據(jù)為線性可分離時(shí),SVM 的最佳超平面是在兩個(gè)類之間具有最大邊距的超平面。如果數(shù)據(jù)不是線性可分離,則使用損失函數(shù)對(duì)處于超平面錯(cuò)誤一邊的點(diǎn)進(jìn)行懲罰。SVM 有時(shí)使用核變換,將非線性可分離的數(shù)據(jù)變換為可找到線性判定邊界的更高維度。
適用場(chǎng)景:
- 適用于正好有兩個(gè)類的數(shù)據(jù)(借助所謂的糾錯(cuò)輸出碼技術(shù),也可以將其用于多類分類)
- 適用于高維、非線性可分離的數(shù)據(jù)
- 當(dāng)您需要一個(gè)簡(jiǎn)單、易于解釋、準(zhǔn)確的分類器時(shí)
神經(jīng)網(wǎng)絡(luò)
工作原理:受人腦的啟發(fā),神經(jīng)網(wǎng)絡(luò)由高度互連的神經(jīng)元網(wǎng)絡(luò)組成,這些神經(jīng)元將輸入與所需輸出相關(guān)聯(lián)。通過反復(fù)修改聯(lián)系的強(qiáng)度,對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使給定的輸入映射到正確的響應(yīng)。
適用場(chǎng)景:
- 適用于高度非線性系統(tǒng)建模
- 當(dāng)數(shù)據(jù)逐漸增多,而您希望不斷更新模型時(shí)
- 當(dāng)您的輸入數(shù)據(jù)可能有意外變動(dòng)時(shí)
- 當(dāng)模型可解釋性不是主要考慮因素時(shí)
樸素貝葉斯
工作原理:樸素貝葉斯分類器假設(shè)類中某一具體特征的存在與任何其他特征的存在不相關(guān)。根據(jù)數(shù)據(jù)屬于某個(gè)特定類的最高概率對(duì)新數(shù)據(jù)進(jìn)行分類。
適用場(chǎng)景:
- 適用于包含許多參數(shù)的小數(shù)據(jù)集
- 當(dāng)您需要易于解釋的分類器時(shí)
- 當(dāng)模型會(huì)遇到不在訓(xùn)練數(shù)據(jù)中的情形時(shí),許多金融和醫(yī)學(xué)應(yīng)用就屬于這種情況
示意圖
判別分析
工作原理:判別分析通過發(fā)現(xiàn)特征的線性組合來對(duì)數(shù)據(jù)分類。判別分析假定不同的類根據(jù)高斯分布生成數(shù)據(jù)。訓(xùn)練判別分析模型涉及查找每個(gè)類的高斯分布的參數(shù)。分布參數(shù)用來計(jì)算邊界,邊界可能為線性函數(shù)或二次函數(shù)。這些邊界用來確定新數(shù)據(jù)的類。
適用場(chǎng)景:
- 當(dāng)需要易于解釋的簡(jiǎn)單模型時(shí)
- 當(dāng)訓(xùn)練過程中的內(nèi)存使用是需要關(guān)注的問題時(shí)
- 當(dāng)您需要快速預(yù)測(cè)的模型時(shí)
決策樹
工作原理:利用決策樹預(yù)測(cè)對(duì)數(shù)據(jù)響應(yīng)的方法是,按照樹中根節(jié)點(diǎn)(起始)到葉節(jié)點(diǎn)的順序自上而下地決策。樹由分支條件組成,在這些條件中,預(yù)測(cè)元的值與訓(xùn)練的權(quán)重進(jìn)行比較。分支的數(shù)量和權(quán)重的值在訓(xùn)練過程中確定。附加修改或剪枝可用來簡(jiǎn)化模型。
適用場(chǎng)景:
- 當(dāng)需要易于解釋和快速擬合的算法時(shí)
- 最小化內(nèi)存使用
- 當(dāng)不要求很高的預(yù)測(cè)準(zhǔn)確性時(shí)
Bagged和Boosted決策樹
工作原理:在這些集成方法中,幾個(gè)“較弱”的決策樹組合成一個(gè)“較強(qiáng)”的整體。
- 袋裝決策樹由根據(jù)從輸入數(shù)據(jù)中自舉的數(shù)據(jù)進(jìn)行獨(dú)立訓(xùn)練的樹組成。
- 促進(jìn)決策樹涉及創(chuàng)建一個(gè)強(qiáng)學(xué)習(xí)器,具體方法是,迭代地添加“弱”
學(xué)習(xí)器并調(diào)節(jié)每個(gè)弱學(xué)習(xí)器的權(quán)重,從而將重點(diǎn)放在錯(cuò)誤分類的
樣本
適用場(chǎng)景:
- 當(dāng)預(yù)測(cè)元為無序類別(離散)或表現(xiàn)非線性時(shí)
- 當(dāng)無需太關(guān)注訓(xùn)練一個(gè)模型所用時(shí)間時(shí)
回歸算法
線性回歸
工作原理:線性回歸是一項(xiàng)統(tǒng)計(jì)建模技術(shù),用來描述作為一個(gè)或多個(gè)預(yù)測(cè)元變量的線性函數(shù)的連續(xù)應(yīng)變量。因?yàn)榫€性回歸模型解釋簡(jiǎn)單,易于訓(xùn)練,所以通常是第一個(gè)要與新數(shù)據(jù)集擬合的模型。
適用場(chǎng)景:
- 當(dāng)需要易于解釋和快速擬合的算法時(shí)
- 作為評(píng)估其他更復(fù)雜回歸模型的基準(zhǔn)
非線性回歸
- 工作原理:非線性回歸是一種有助于描述實(shí)驗(yàn)數(shù)據(jù)中非線性關(guān)系的統(tǒng)計(jì)建模技術(shù)。通常將非線性回歸模型假設(shè)為參數(shù)模型,將該模型稱為非線性方程。“非線性”是指一個(gè)擬合函數(shù),它是多個(gè)參數(shù)的非線性函數(shù)。例如,如果擬合參數(shù)為b0、b1和b2:方程式y(tǒng) = b0+b1x+b2x2是擬合參數(shù)的線性函數(shù),而 y = (b0xb1)/(x+b2) 是擬合參數(shù)的非線性函數(shù)。
- 適用場(chǎng)景:
- 當(dāng)數(shù)據(jù)有很強(qiáng)的非線性趨勢(shì),不容易轉(zhuǎn)化成線性空間時(shí)
- 適用于自定義模型與數(shù)據(jù)擬合
高斯過程回歸模型
- 工作原理:高斯過程回歸 (GPR) 模型是非參數(shù)模型,用于預(yù)測(cè)連續(xù)應(yīng)變量的值。這些模型廣泛用于對(duì)存在不確定情況下的插值進(jìn)行空間分析的領(lǐng)域。 GPR 也稱為克里格法 (Kriging)。
- 適用場(chǎng)景:
- 適用于對(duì)空間數(shù)據(jù)插值,如針對(duì)地下水分布水文地質(zhì)學(xué)數(shù)據(jù)
- 作為有助于優(yōu)化汽車發(fā)動(dòng)機(jī)等復(fù)雜設(shè)計(jì)的替代模型
SVM 回歸
- 工作原理:SVM 回歸算法類似于 SVM 分類算法,但經(jīng)過改良,能夠預(yù)測(cè)連續(xù)響應(yīng)。不同于查找一個(gè)分離數(shù)據(jù)的超平面, SVM 回歸算法查找一個(gè)偏離測(cè)量數(shù)據(jù)的模型,偏離的值不大于一個(gè)小數(shù)額,采用盡可能小的參數(shù)值(使對(duì)誤差的敏感度最小)。
- 適用場(chǎng)景:適用于高維數(shù)據(jù)(將會(huì)有大量的預(yù)測(cè)元變量)
廣義線性回歸
- 工作原理:廣義線性模型是使用線性方法的非線性模型的一種特殊情況。它涉及輸入的線性組合與輸出的非線性函數(shù)(連接函數(shù))擬合。
- 適用場(chǎng)景:當(dāng)應(yīng)變量有非正態(tài)分布時(shí),比如始終預(yù)期為正值的應(yīng)變量
回歸樹
- 工作原理:回歸的決策樹類似于分類的決策樹,但經(jīng)過改良,能夠預(yù)測(cè)連續(xù)響應(yīng)。
- 適用場(chǎng)景:當(dāng)預(yù)測(cè)元為無序類別(離散)或表現(xiàn)非線性時(shí)
總結(jié)
- 上一篇: 2023-01-24 | 苹果 iOS
- 下一篇: Liveness 探测 - 每天5分钟玩