【计算机科学】【2011.05】【含源码】微阵列数据的SVM分类与边缘距离分析
本文為美國阿克倫大學(作者:Ameer Basha Shaik Abdul)的碩士論文,共84頁。
支持向量機是一種統計分類算法,它借助于泛函超平面將兩類數據分開進行分類。SVM在噪聲和高維數據(如微陣列)的應用上具有良好的性能。(注:微陣列(DNA Microarray)也叫寡核苷酸陣列(Oligonucleitide array),是人類基因組計劃(Human Geneome Project,HGP)的逐步實施和分子生物學的迅猛發展及運用的產物,它是生物學家受到計算機芯片制造和廣為應用的啟迪,融微電子學、生命科學、計算機科學和光電化學為一體,在原來核酸雜交(Northern、Southern)的基礎上發展起來的一項新技術,它是第三次革命(基因組革命)中的主要技術之一,是生物芯片中的一種。該技術的原理是在固體表面上集成已知序列的基因探針,被測生物細胞或組織中大量標記的核酸序列與上述探針陣列進行雜交,通過檢測相應位置雜交探針,實現基因信息的快速檢測。)
泛函超平面的邊緣區域稱為危險區域,它定義為兩個平行超平面之間的區域,平行超平面由兩類數據支持向量與泛函超平面之間的平均距離確定。本研究的主要目的是確定邊緣距離、危險區寬度對分類器精度的影響,并分析邊緣距離在特征選擇中的作用。本文的研究使用了三組微陣列數據集。對于每個數據集,推導了兩類數據的泛函超平面方程,并獲得了相應的支持向量。研究了危險區寬度與分類精度之間的關系,還研究了用于構建支持向量機的特征數量相對于邊緣距離的變化率。
研究結果表明,雖然邊緣距離與分類精度的相關性不是很強,但利用分類精度相對于邊緣距離的變化率,可以確定構造高性能支持向量機的最優特征數。
Support vector machine is statisticalclassification algorithm that classifies data by separating two classes withthe help of a functional hyper plane. SVM is known for good performance onnoisy and high dimensional data such as microarray. A marginal region offunctional hyper plane named ?danger zone?is defined to be the regionbetween two parallel hyper planes that are determinedby the average distances of the support vectors from the two classes tofunctional hyper plane. The main aim of this study was to determine the effectof margin distance, the width of the danger zone, on the accuracy of theclassifier and to analyze the role of margin distance in feature selection. Thestudy was carried out using three microarray datasets. For each dataset,equation of functional hyper plane separating the two classes of data wasderived. The corresponding support vectors were obtained. The average distancesbetween support vectors from the two classes to functional hyper plane werecalculated. The relations between the width of the danger zone and theclassification accuracy were investigated. The rate of change of the margindistance with respect to the number of features used for constructing thesupport vector machine was also examined. The results indicate that althoughcorrelation between margin and accuracy is not very strong, but the rate ofchange of classification accuracy with respect to margin distance can beemployed to determine the optimal number of features for constructing highperformance support vector machine for classifying microarray samples.
1 引言
2 相關文獻回顧
3 研究數據與方法
4 研究結果與討論
5 結論
附錄 MATLAB源碼
附錄A 隨機產生訓練與測試數據
附錄B 訓練與測試數據集定標
附錄C 對定標訓練數據進行T檢驗
附錄D 計算SVM分類器的邊緣距離
下載英文原文地址:
http://page2.dfpan.com/fs/3lcj02214291a659985/
更多精彩文章請關注微信號:
總結
以上是生活随笔為你收集整理的【计算机科学】【2011.05】【含源码】微阵列数据的SVM分类与边缘距离分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构(三)打印二叉树中结点层次遍历序
- 下一篇: 电化学传感器原理