ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:數(shù)據(jù)處理—特征工程之稀疏特征的簡介、如何處理、案例應(yīng)用之詳細(xì)攻略
?
?
目錄
稀疏特征的簡介
稀疏特征的如何處理
稀疏特征的案例應(yīng)用
?
?
稀疏特征的簡介
? ? ? ?信號(hào)稀疏表示是過去近20年來信號(hào)處理界一個(gè)非常引人關(guān)注的研究領(lǐng)域,眾多研究論文和專題研討會(huì)表明了該領(lǐng)域的蓬勃發(fā)展。信號(hào)稀疏表示的目的就是在給定的超完備字典中用盡可能少的原子來表示信號(hào),可以獲得信號(hào)更為簡潔的表示方式,從而使我們更容易地獲取信號(hào)中所蘊(yùn)含的信息,更方便進(jìn)一步對(duì)信號(hào)進(jìn)行加工處理,如壓縮、編碼等 ? ?
? ? ? ?數(shù)學(xué)變換會(huì)追求所謂稀疏表示(sparse representation),即如何通過最小數(shù)量的系數(shù)盡可能更多的描述信號(hào)的能量。不同類型的信號(hào),其在不同變換下系數(shù)的分布會(huì)不同。
? ? ? ?信號(hào)稀疏表示的目的就是在給定的超完備字典中用盡可能少的原子來表示信號(hào),可以獲得信號(hào)更為簡潔的表示方式,從而使我們更容易地獲取信號(hào)中所蘊(yùn)含的信息,更方便進(jìn)一步對(duì)信號(hào)進(jìn)行加工處理,如壓縮、編碼等。信號(hào)稀疏表示方向的研究熱點(diǎn)主要集中在稀疏分解算法、超完備原子字典、和稀疏表示的應(yīng)用等方面。
1、稀疏表示在圖像處理領(lǐng)域的應(yīng)用的幾個(gè)方面:
- 圖像去噪:傳統(tǒng)的去噪方法往往假設(shè)含噪圖像的有用信息處在低頻區(qū)域,而噪聲信息處在高頻區(qū)域,從而基于中值濾波、Wiener 濾波、小波變換等方法實(shí)現(xiàn)圖像去噪,而實(shí)際上這種假設(shè)并不總是成立的。基于圖像的稀疏表示,近幾年來研究者們提出了基于過完備字典稀疏表示的圖像去噪模型,其基本原理是將圖像的稀疏表示作為有用信息,將逼近殘差視為噪聲。利用 K-SVD 算法求得基于稀疏和冗余的訓(xùn)練字典,同時(shí)針對(duì) K-SVD 算法僅適合處理小規(guī)模數(shù)據(jù)的局限,通過定義全局最優(yōu)來強(qiáng)制圖像局部塊的稀疏性。文獻(xiàn)提出了稀疏性正則化的圖像泊松去噪算法,該算法采用 log 的泊松似然函數(shù)作為保真項(xiàng),用圖像在冗余字典下稀疏性約束作為正則項(xiàng),從而取得更好的去噪效果。
- 人臉識(shí)別:近年來,稀疏表示廣泛應(yīng)用于人臉識(shí)別,并取得了很好的識(shí)別效果。Wright 等人認(rèn)為:①同類樣本處于同一個(gè)線性子空間,任一測(cè)試樣本均可以用來自于該類的訓(xùn)練樣本進(jìn)行線性表示;②用所有的訓(xùn)練樣本構(gòu)成字典,則測(cè)試樣本在該字典上的表示是稀疏的,同時(shí)該稀疏系數(shù)包含了樣本的類別信息。基于此,Wright 等提出了基于稀疏表示的人臉識(shí)別框架,即首先基于人臉庫構(gòu)造過完備字典,然后計(jì)算待測(cè)圖像在該字典上的稀疏系數(shù),再根據(jù)重構(gòu)誤差判別圖像身份。該算法對(duì)特征選擇不敏感,有很強(qiáng)的抗噪聲能力,并且具有較好的遮擋處理功能,從而在人臉識(shí)別領(lǐng)域得到了廣泛關(guān)注。提出加權(quán)稀疏編碼算法,該方法在解決人臉遮擋、光照、表情等方面取得了較好的效果。為了解決小維度,小樣本的人臉識(shí)別問題,提出了基于稀疏表示和奇異值分解的人臉識(shí)別算法,實(shí)驗(yàn)表明該方法在 ORL 人臉庫上取得了較好的效果。
- 目標(biāo)跟蹤:近年來,稀疏表示在目標(biāo)跟蹤領(lǐng)域也得到的廣泛應(yīng)用。針對(duì)紅外圖像序列中目標(biāo)與背景對(duì)比度低、灰度特征易受噪聲影響等問題,提出了一種基于稀疏表示模型的紅外目標(biāo)跟蹤算法。提出了一個(gè)新的基于稀疏表示的目標(biāo)跟蹤方法,通過L1 范數(shù)最小化求解,實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有的基于 L1 范數(shù)最小化的跟蹤方法性能更穩(wěn)定、計(jì)算效率更高。為了有效解決跟蹤過程中的目標(biāo)遮擋問題,提出了一種基于局部稀疏表示模型的跟蹤方法。實(shí)驗(yàn)結(jié)果表明,該方法比各種流行跟蹤方法穩(wěn)定可靠且具有良好的抗遮擋性,并對(duì)海上紅外目標(biāo)跟蹤取得良好效果。圖像修復(fù)隨著稀疏表示研究的深入,稀疏表示在圖像修復(fù)領(lǐng)域也得到了廣泛應(yīng)用[35-37]。為了確保修復(fù)時(shí)填充洞和周圍之間的視覺合理性與一致性,Shen 等人提出直接在待處理圖像完整區(qū)域采樣,構(gòu)造冗余字典,然后通過依次計(jì)算洞邊界不完整的塊的稀疏表示進(jìn)行恢復(fù)。該算法在處理大洞和保留圖像細(xì)節(jié)方面具有較好的能力。針對(duì)現(xiàn)有圖像修復(fù)方法中待填充塊在全局搜索與之最匹配塊的計(jì)算復(fù)雜度高、結(jié)構(gòu)連貫性和紋理清晰性不佳的缺點(diǎn),文獻(xiàn)[36]提出了基于塊結(jié)構(gòu)稀疏度的自適應(yīng)圖像修復(fù)算法。針對(duì)圖像結(jié)構(gòu)信息缺損較大的圖像,提出利用結(jié)構(gòu)約束和樣本稀疏表示實(shí)現(xiàn)圖像修復(fù),該方法既能較好的修復(fù)圖像邊緣結(jié)構(gòu),又能保持結(jié)構(gòu)的整體平滑性。
- 壓縮感知:為了有效重構(gòu)原信號(hào),傳統(tǒng)方式下需要基于奈奎斯特采樣定理實(shí)現(xiàn)對(duì)信號(hào)的采樣。近年來,隨著稀疏表示的興起為重構(gòu)原信號(hào)提出了一種新的理論-壓縮感知。壓縮感知理論突破了奈奎斯特采樣頻率的下限,它以信號(hào)的稀疏性(或可壓縮性)作為前提,將傳統(tǒng)方式下對(duì)信號(hào)的采樣和壓縮兩個(gè)過程融為一個(gè)過程,直接獲取稀疏信號(hào),然后用一個(gè)與變換矩陣無關(guān)的觀測(cè)矩陣對(duì)變換系數(shù)向量進(jìn)行變換,最后通過求解一個(gè)優(yōu)化問題重構(gòu)原信號(hào)。目前,國內(nèi)外研究人員在該領(lǐng)域進(jìn)行了深入研究,并提出了有效的壓縮感知理論與方法。
2、樹模型下的稀疏特征
?
稀疏特征的如何處理
1、統(tǒng)一的稀疏特征處理方案:將稀疏特征視為缺失值。
Algorithm 3: Sparsity-aware Split Finding 稀疏感知分割發(fā)現(xiàn)
?
?
?
?
稀疏特征的案例應(yīng)用
1、在數(shù)據(jù)高度稀疏的Allstate-10K 數(shù)據(jù)集上稀疏算法比基本算法快近50倍。
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 成功解决 .Quit() File CO
- 下一篇: Dataset之HiggsBoson:H