机器学习算法:补一个k-近邻算法的测试
之前寫(xiě)k-近鄰算法(http://boytnt.blog.51cto.com/966121/1569629)的時(shí)候,沒(méi)附上測(cè)試數(shù)據(jù),這回找了一個(gè),測(cè)試一下算法的效果。數(shù)據(jù)來(lái)源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,關(guān)于乳腺癌的樣本,屬性描述見(jiàn)breast-cancer-wisconsin.names。
樣本的大致形式如下:
| 1 | 1000025,5,1,1,1,2,1,3,1,1,2 |
第1個(gè)屬性是編號(hào),我們不關(guān)心,最后一個(gè)屬性是結(jié)果,2表示benign(良性),4表示malignant(惡性)。其余9個(gè)屬性是樣本特征。注意里面有缺失數(shù)據(jù)(用?表示,共計(jì)16行,占2.3%),計(jì)算時(shí)要先做數(shù)據(jù)清洗,這里簡(jiǎn)單填充成0即可。
用k-近鄰算法來(lái)測(cè)試一下:
| 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 | public?void?TestNearestNeighbour() { ????var?trainingSet?=?new?List<DataVector<double>>(); ????var?testSet?=?new?List<DataVector<double>>(); ????? ????//讀取數(shù)據(jù) ????var?file?=?new?StreamReader("breast-cancer-wisconsin.txt",?Encoding.Default); ????for(int?i?=?0;i?<?699;++i) ????{ ????????string?line?=?file.ReadLine(); ????????var?parts?=?line.Split(','); ????????? ????????var?p?=?new?DataVector<double>(9); ????????for(int?j?=?0;j?<?p.Dimension;++j) ????????{ ????????????if(parts[j?+?1]?==?"?") ????????????????parts[j?+?1]?=?"0"; ????????????p.Data[j]?=?Convert.ToDouble(parts[j?+?1]); ????????} ????????p.Label?=?Convert.ToInt32(parts[10])?==?2???"benign"?:?"malignant"; ????????? ????????//用600個(gè)樣本做訓(xùn)練,剩下99個(gè)做測(cè)試 ????????if(i?<?600) ????????????trainingSet.Add(p); ????????else ????????????testSet.Add(p); ????} ????file.Close(); ????? ????//檢驗(yàn) ????var?nn?=?new?NearestNeighbour(); ????nn.Train(trainingSet); ????int?error?=?0; ????foreach(var?p?in?testSet) ????{ ????????var?label?=?nn.Classify(p); ????????if(label?!=?p.Label) ????????????++error; ????} ????? ????Console.WriteLine("Error?=?{0}/{1},?{2}%",?error,?testSet.Count,?(error?*?100.0?/?testSet.Count)); } |
運(yùn)行結(jié)果是99個(gè)測(cè)試樣本猜錯(cuò)2個(gè),錯(cuò)誤率2.02%,效果不錯(cuò)。
附件:http://down.51cto.com/data/2365048
? ? ?本文轉(zhuǎn)自 BoyTNT 51CTO博客,原文鏈接:http://blog.51cto.com/boytnt/1572149,如需轉(zhuǎn)載請(qǐng)自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的机器学习算法:补一个k-近邻算法的测试的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: MyEclipse调试过程中遇到一个奇怪
- 下一篇: 阿里云云主机添加swap分区与swap性