【特征选择】基础知识
???????? 數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。特征選擇是特種工程的重要組成部分,在現(xiàn)實(shí)任務(wù)中,獲得數(shù)據(jù)之后通常先進(jìn)性特征選擇,用相關(guān)特征訓(xùn)練學(xué)習(xí)器。
特征選擇的概念
- 相關(guān)特征:與當(dāng)前學(xué)習(xí)任務(wù)相關(guān)的特征
- 無關(guān)特征:與當(dāng)前學(xué)習(xí)任務(wù)無關(guān)的特征
- 特征選擇:在不丟失重要特征的前提下,從給定的特征集合中選擇出相關(guān)特征子集的過程(相關(guān)性)
?
特征選擇的原因
1.降低學(xué)習(xí)難度
2.減輕維度災(zāi)難
3.減少計(jì)算和存儲(chǔ)開銷
4.提高模型的可解釋性
?
特征選擇的過程
????????? 生成一個(gè)“候選子集”,評(píng)價(jià)候選子集的好壞,基于評(píng)價(jià)結(jié)果生成下一個(gè)“候選子集“,再評(píng)價(jià)候選子集的好壞......直至無法找到更好的候選子集為止。特征選擇的關(guān)鍵環(huán)節(jié):如何根據(jù)評(píng)價(jià)結(jié)果生成下一個(gè)候選特征子集?(子集搜索問題)如何評(píng)價(jià)候選特征子集的好壞?(子集評(píng)價(jià)問題)
(1)子集搜索問題
????? 通過貪心策略解決子集搜索問題,三種常見的策略:
- 前向搜索策略:逐漸增加相關(guān)特征
- 后向搜索策略:逐漸減少無關(guān)特征
- 雙向搜索策略:逐漸增加相關(guān)特征,同時(shí)逐漸減少無關(guān)特征
(2)子集評(píng)價(jià)問題
???????? 通過計(jì)算候選子集的信息增益,評(píng)價(jià)候選子集的好壞。信息增益越大,則候選子集包含的的有助于分類的信息越多。信息增益是子集評(píng)價(jià)的準(zhǔn)則之一,其他能判斷劃分差異的機(jī)制均能夠用于特征子集評(píng)價(jià)。
特征選擇方法之決策樹
?
特征選擇的方法--過濾式(filter)、包裹式(wrapper)、嵌入式 (embedded)
- 過濾式--使用發(fā)散性/相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或特征個(gè)數(shù)選擇特征 。特征選擇過程與學(xué)習(xí)器無關(guān),相當(dāng)于先對(duì)初始特征進(jìn)行過濾,再用過濾后的特征訓(xùn)練模型。
?
- 包裹式--使用學(xué)習(xí)器的目標(biāo)函數(shù)對(duì)各個(gè)特征進(jìn)行評(píng)分,選擇若干特征/刪除若干特征。特征選擇過程與學(xué)習(xí)器相關(guān),使用學(xué)習(xí)器的性能作為特征選擇的評(píng)價(jià)準(zhǔn)則,選擇最有利于學(xué)習(xí)器性能的特征子集。
- 嵌入式--使用機(jī)器學(xué)習(xí)算法對(duì)各個(gè)特征進(jìn)行評(píng)分,選擇若干個(gè)特征。特征選擇過程與學(xué)習(xí)器相關(guān),特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融合,在學(xué)習(xí)器訓(xùn)練過程中自動(dòng)地進(jìn)行特征選擇。
?
?
特征選擇的效果
????? 特征選擇不一定提升模型性能。
- 移除無關(guān)特征,能夠在一定程度上提升模型性能。
- 移除重要程度較低的特征,不一定導(dǎo)致模型性能下降,也不一定導(dǎo)致模型性能提升。(特征的某種度量方式不代表特征的最終效果,度量方式只是一個(gè)參考而已)
轉(zhuǎn)載于:https://www.cnblogs.com/wanglei5205/p/8973614.html
總結(jié)
以上是生活随笔為你收集整理的【特征选择】基础知识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android项目实战(三十二):圆角对
- 下一篇: Lync Server 2013 标准版