PyMining
PyMining-開源中文文本數(shù)據(jù)挖掘平臺(tái) Ver 0.1發(fā)布
項(xiàng)目首頁(yè):
http://code.google.com/p/python-data-mining-platform/?(可能需翻墻)
目前已經(jīng)在該googlecode中加入了Tutorial等內(nèi)容,可以在wiki中查看
?
項(xiàng)目介紹(復(fù)制自項(xiàng)目首頁(yè)的說(shuō)明):
這是一個(gè)能夠根據(jù)源數(shù)據(jù)(比如說(shuō)用csv格式表示的矩陣,或者中文文檔)使用多種多樣的算法去得到結(jié)果的一個(gè)平臺(tái)。
算法能夠通過(guò)xml配置文件去一個(gè)一個(gè)的運(yùn)行,比如在開始的時(shí)候,我們可以先運(yùn)行一下主成分分析算法去做特種選擇,然后我們?cè)龠\(yùn)行隨機(jī)森林算法來(lái)做分類。
目前算法主要是針對(duì)那些單機(jī)能夠完成的任務(wù),該架構(gòu)良好的擴(kuò)展性能夠讓你在很短的時(shí)間內(nèi)完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。該項(xiàng)目的另一個(gè)特色是能夠很好的支持中文文本的分類、聚類等操作。
只需要寫下下面的程序,就能夠得到神奇的結(jié)果(對(duì)文本進(jìn)行特征選擇、得到naive bayes分類模型,并且預(yù)測(cè)):
1: #load config 2: config = Configuration.FromFile("conf/test.xml") 3: PyMining.Init(config, "__global__") 4: 5: #get matrix from source text 6: matCreater = ClassifierMatrix(config, "__matrix__") 7: [trainx, trainy] = matCreater.CreateTrainMatrix("data/train.txt") 8: 9: #get chi square filter 10: chiFilter = ChiSquareFilter(config, "__filter__") 11: chiFilter.TrainFilter(trainx, trainy) 12: 13: #runs naive-bayes model to get model 14: nbModel = TwcNaiveBayes(config, "twc_naive_bayes") 15: nbModel.Train(trainx, trainy) 16:? 17: #using the model to predict an unseen doc to target class 18: [testx, testy] = matCreater.CreatePredictMatrix("data/test.txt") 19: [testx, testy] = chiFilter.MatrixFilter(testx, testy) 20: retY = nbModel.TestMatrix(testx, testy) ?目前的版本:
Ver 0.1(第二個(gè)開發(fā)版)
?
Features:
??? 上一版的Feature:
- 能夠支持中文文本輸入,并且對(duì)其進(jìn)行分詞等操作,作為分類的源數(shù)據(jù)
- 帶有卡方檢測(cè)(chi square test)的特征詞選擇器(feature selector)
- 參數(shù)的調(diào)整(parameter tuning)支持通過(guò)xml配置文件進(jìn)行
?
???? 新增Feature:
- 加入了K-Means算法,能夠?qū)ξ谋具M(jìn)行聚類
- 加入了基于補(bǔ)集的樸素貝葉斯算法,大大提升了分類的準(zhǔn)確率,目前該算法在搜狗實(shí)驗(yàn)室文本分類數(shù)據(jù)中,對(duì)20000篇、8分類左右的數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率在90%左右
- 加入了Sogou實(shí)驗(yàn)室文本分類數(shù)據(jù)的導(dǎo)入器,可以進(jìn)行更多的實(shí)驗(yàn)
?
獲取PyMining:
???? 于http://code.google.com/p/python-data-mining-platform/downloads/detail?name=pymining_0_1.zip&can=2&q=#makechanges,可獲取目前最新的ver 0.1版(可能需要翻墻)
???? 不用翻墻的版本:http://files.cnblogs.com/LeftNotEasy/pymining_0_1.zip
分類:?機(jī)器學(xué)習(xí) 標(biāo)簽:?機(jī)器學(xué)習(xí),?pymining,?數(shù)據(jù)挖掘,?人工智能,?開源平臺(tái)總結(jié)
- 上一篇: python No-ASCII char
- 下一篇: EasyToLife的博客