基于智能计算的降维技术研究与应用
《基于智能計算的降維技術研究與應用》皋軍著(2013)
前言
- 特征降維的需求
 
隨著社會信息化的發展,在具體的只能識別過程中需要處理的數據越來越多地呈現出高位特征,比如圖像處理、文本分類、視頻檢索、計算機視覺、微陣列數據基因選擇和基于生物特征的身份識別等。造成這種現象的主要原因在于:在智能識別過程中,只有當樣本已經包含了足夠多的模式分類信息時,才能得到較好的智能識別效果。然而,如何確定特征中是否已經包含了足夠多的類別信號本身就是一個很難解決的問題。因此為了提高模式識別的效果,在通常情況下,人們通常采集盡可能多的特征去提現樣本的類別信息,這導致原始樣本空間的維數可能達到幾千維甚至上萬維,而如果在如此高維的原始空間直接使用模式識別方法,那么所得到的只能識別效果將受到較大的影響。這是因為在如此高維的特征中存在大量的冗余特征,使得特征之間的相關性較強,從而增加了模式分類算法的負擔,降低了算法的效率。同時,由于隨著樣本特征維數的增加,使得對樣本的統計特性更加難以估計,從而會影響分類算法的泛化能力,呈現所謂的過學習的現象。
- 面臨的問題和挑戰
 
目前,特征降維技術作為一種關鍵的數據預處理技術被廣泛加一研究,并在不同的實際應用領域得到了較為成功的應用,但隨著新理論和新技術的不斷發展,特別是大量新興的只能識別應用領域的需求,對特征降維技術提出了更高的要求,使得現有的特征降維技術面臨了更大的挑戰。比如:
1)如何提高基于支持向量機的特征選擇方法的泛化能力和魯棒性;
2)如何更好地實現特征提取技術與模糊聚類技術的有機結合,以提高特征降維方法的魯棒性;
3)如何提高特征降維方法中的距離度量學習的有效性;
4)如何將特征降維方法中的關鍵技術和理論運用到支持向量機中,以提高支持向量機的泛化能力和魯棒性;
5)如何結合張量理論提高特征降維的效果;
6)如何在具有明顯不同分布的源域和目標域實現提取技術等。
第一章 緒論
特征降維的方法在過去的幾十年中唄廣泛地加一研究,但總體上可以將已有的方法分為兩大類,即特征選擇(Feature Select)和特征提取(Feature Extraction)。
特征選擇技術
定義:特征選擇是在原始的特征集中選取最有代表性的特征子集,重新構造一低維的樣本空間。顯而易見,最直觀的特征選擇就是枚舉法,通過遍歷原始特征集,從所有的特征子集中尋找出最有利于只能識別的特征子集,得到全局最優解。從這一層面上來講,枚舉法更適用于低維的原始樣本空間,而在處理具有高維特征的數據時,枚舉法將消耗大量的時間和空間資源,甚至在可計算狀態下并不能獲得全局最優。
近幾年來,具有時間和空間復雜度低、局部最優解或次優解特點的特征選擇方法被大量地提出,比如:
基于支持向量機(SVM)的特征選擇方法[2-5]:一般依賴結構風險最小化原理,具有較強的泛化能力。在特征選擇問題上較于基于經驗風險最小的眾多方法具有更好的魯棒性。
支持向量機的回歸特征消除法(the SVM Recurisive Feature Elimination,SVM-RFE),時間復雜度與樣本特征數目成正比。
勢支持向量機(Potential Support Vector Machine,P-SVM),通過定義新的木匾函數和相應的邊界條直接選取支持特征,從而提高特征選擇的效率。同時由于定義了新的邊界條件,在一定程度上減小了邊緣誤差的傳播。
基于概率密度估計的特征選擇方法[6-7]
基于信息論的特征選擇方法[8-10]
基于特征加權的特征選擇方法[11-13]:通過對每一特征賦予相應的權值來表征不同特征對模式分類的貢獻大小。
加權K-均值類型聚類(Weighting in K-Means Type Clustering,W-K——Means),通過無監督的模式分類(聚類)來得到每個特征所對應的權值,并對相應的權值進行排序,使用聚類的有效性來作為特征選擇的標準。
RELIEF特征選擇方法,根據識別相鄰模式的區分能力來迭代產生相應特征的權值,算法簡單有效。
I-RELIEF,依據最大期望原理重新構造迭代目標函數,提出新的迭代RELIEF算法,該方法在一定程度上繼承了RELIEF的有點,同時可以實現多類模型分類的特征選擇,提高算法的適應性。
這些特征選擇方法根據各自不同的評測標準來實現特征選擇,而一般來說基于支持向量機、基于特征加權的特征選擇方法相對于其他的方法較為直觀和簡單。
特征提取技術(也叫特征變換)
定義:對原始特征空間采用采用某種具體的變換映射操作,已獲取低維的投影空間。總體山更可分為線性方法和非線性方法。
特征提取方法:
- 線性方法
- 基于主成分分析(PCA):無監督方法,以方差大小作為衡量信息量大小來作為衡量信息量多少的標準,實現特征提取。
 - 線性判別分析(LDA):有監督方法,在充分使用一直訓練樣本類別信息的前提下,通過構造所謂的類內散度和類間散度,并極大化類間散度和類內散度的冠以Rayleigh熵,以得到類間最大,類內最小的特征投影矢量,實現特征提取。該方法物理意義明確、幾何意義直觀,然而存在小樣本問題(處理高維小樣本數據時,類內散度矩陣容易發生異變)。
 
 非線性方法
核方法(KPCA、KLDA、LPP)
流形
- 線性方法
 
第二章 廣義的勢支持特征選擇方法
第三章 具有特征排序功能的魯棒性模糊聚類
第四章基于語境距離測量的拉普拉斯最大間距判決準則
第五章 基于模糊最大散度差判別準則的聚類方法
第六章 具有模糊聚類功能的雙向二維監督特征提取方法
第七章 基于局部加權均值的領域適應學習框架
第八章 基于矩陣模式的最小類內散度支持向量機
第九章 基于全局和局部保持的半監督支持向量機
總結
以上是生活随笔為你收集整理的基于智能计算的降维技术研究与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 《流浪地球2》票房破8亿 1468万人与
 - 下一篇: 羊毛党别错过 《英雄联盟手游》登陆就能领