机器学习必备:前20名Python人工智能和机器学习开源项目
摘要: 機器學習之旅必了解:前20名Python人工智能和機器學習開源項目!
如今機器學習和人工智能已經變得家喻戶曉,有很多愛好者進入了該領域。但是,什么才是能夠進入該領域的正確路徑呢?如何保持自己跟上該領域的發展步伐呢?
為了解決以上兩個問題,可以通過利用高級專業人員每天使用的眾多開源項目和工具,與社區進行接觸。
如今,Tensorflow的貢獻者人數增長最快,居首位。Scikit-learn下降到第二位,但仍有非常大的貢獻者群體。
與2016年相比,貢獻者人數增長最快的項目是:
TensorFlow提高了169%,從493個增加到1324個貢獻者。
Deap,提高了86%,從21個增加到39個貢獻者。
Chainer,提高了83%,從84個增加到154個貢獻者。
Gensim,提高了81%,從145個增加到262個貢獻者。
Neon,提高了66%,從47個增加到78個貢獻者。
Nilearn提高了50%,從46個增加到69個貢獻者。
2018年新晉的兩個項目的貢獻者人數:
Keras,626名貢獻者。
Pytorch,399名貢獻者。
圖1:Github上的前20名Python人工智能和機器學習項目
上圖:雪花大小與貢獻者的數量成正比,顏色代表貢獻者數量的變化-紅色越高,藍色越低。雪花形狀適用于深度學習項目,適用于其他項目。
下面的列表根據Github上貢獻者的數量將項目從高到低進行排列。貢獻者人數的變化與2016年KDnuggets發布的前20名Python機器學習開源項目相對。
1.TensorFlow最初是由谷歌機器智能研究機構的Goole Brain Team的研究人員和工程師開發的。該系統旨在促進機器學習方面的研究,并使其快速、容易的從研究原型過渡到生產系統。
貢獻者:1324(上升168%),提交:28476,Stars:92359.Github網址:Tensorflow。
2.Scikit-learn是用于數據挖掘和數據分析的簡單而高效的工具,基于NumPy,SciPy和matplotlib,開源,商業可用-BSD許可證,可供所有人訪問,并且可在各種環境中重復使用。
貢獻者:1019(上升39%),提交:22575,Github網址:Scikit-learn。
3.Keras是一種高級神經網絡的API,用Python編寫,能夠在TensorFlow,CNTK或Theano上運行。
貢獻者:629(新),提交:4371,Github網址:Keras。
4.PyTorch、張量(Tensor)和動態神經網絡(Dynamic neyral networks)在Python中具有強大的GPU加速。
貢獻者:399(新),提交:6458,Github 網址:pytorch。
5.Theano允許你定義、優化和評估涉及多維數數組的數學表達式。
貢獻者:327(上升24%),提交:27931,Github網址:Theano。
6.Gensim是一個免費的Python庫,具有可擴展的統計語義,用于分析語義結構的純文本文檔,檢索語義相似的文檔。
貢獻者:262(上升81%),提交:3549,Github網址:Gensim
7.Caffe是一個深度學習框架,它的表達、速度和模塊化都是在頭腦中形成的。它由伯克利視覺和學習中心(BVLC)和社區貢獻者開發。
貢獻者:260(上升21%),提交:4099,Github網址:Caffe。
8.Chainer是一個基于Python的深度學習模型的獨立開源框架。Chainer提供靈活、直觀和高性能的手段來實施全方位的深度學習模型,包括最新的模型,如遞歸神經網絡和變分自動編碼器。
貢獻者:154(上升84%),提交:12613,Github網址:Chainer。
9.Statsmodels是一個Python模塊,允許用戶探索數據,估計統計模型并執行統計測試。描述統計、統計測試、繪圖功能和結果統計的廣泛列表適用于不同類型的數據和任意一個估算器。
貢獻者:144(上升33%),提交:9729,Github網址:Statsmodels。
10.Shogun是機器學習工具箱,它提供了廣泛的統一和高效的機器學習(ML)方法。該工具箱可以無縫地組合多個數據表示、算法類和通用工具。
貢獻者:139(上升32%),提交:16362,Github網址:Shogun。
11.Pylearn2是一個機器學習庫。其大部分功能都建立在Theano之上。這意味著你可以使用數學表達式編寫Pylearn2插件(新模型、算法等),Theano將為你優化和穩定這些表達式,并將它們編譯為你選擇的后端(CPU或GPU)。
貢獻者:119(上升3.5%),提交:7119,Github網址:Pylearn2。
12.NuPIC是一個開源項目,它基于被稱為分層時間存儲器(HTM)的新大腦皮層理論。部分HTM理論已經在應用中實施、測試和使用,而HTM理論的其他部分仍在開發中。
貢獻者:85(上升12%),提交:6588,Github網址:NuPIC。
13.Neon是Nervana基于Python的深度學習庫。它提供易用性,同時提供最高的性能。
貢獻者:78%(上升66%),提交:1112,Github網址:Neon。
14.Nilearn是一個Python模塊,用于快速簡單的統計學習神經成像數據。它利用scikit-learn Python工具箱進行多變量統計,并提供預測建模,分類,解碼或連接分析等應用。
貢獻者:69(上升50%),提交:6198,Github網址:Nilearn。
15.Orange3是新手和專家的開源機器學習和可視化數據。使用大型工具箱交互式數據分析工作流程。
貢獻者:53(上升33%),提交:8915,Github網址:Orange3。
16.Pymc是一個python模塊,實現貝葉斯統計模型和擬合算法,包括馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo)。其靈活性和可擴展性使其適用大量問題。
貢獻者:39(上升5.4%),提交:2721,Github網址:Pymc。
17.Deap是用于快速原型設計和測試思想的新型演化計算框架,它試圖使算法明確,數據結構透明。它與多處理(Multiprocessing)和SCOOP等并行機制完美協調。
貢獻者:39(上升86%),提交:1960年,Github網址:Deap。
18.Annoy(Approximate Nearest Neighbor Oh Yeah)是一個C++庫,它使用Python綁定來搜索接近給定查詢點的空間點。它還創建了大量的基于只讀文件的數據結構,這些數據結構被映射到內存中,以便許多進程可以共享相同的數據。
貢獻者:35(上升46%),提交:527,Github網址:Annoy。
19.PyBrain是Python的模塊化機器學習庫。其目標是為機器學習任務提供靈活,易于使用但仍然強大的算法,以及各種預定義環境來測試和比較你的算法。
貢獻者:32(上升3%),提交:992,Github網址:PyBrain。
20.Fuel是一個數據管道框架,它為你的機器學習模型提供所需數據。它將被用于Blocks和Pylearn2神經網絡庫。
貢獻者:32(上升10%),提交:1116,Github 網址:Fuel。
貢獻者和提交數在2018年2月錄得。
原文鏈接
干貨好文,請關注掃描以下二維碼:
總結
以上是生活随笔為你收集整理的机器学习必备:前20名Python人工智能和机器学习开源项目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PostgreSQL PostGIS 的
- 下一篇: 银行业AI:炒作背后的现实——“尽管对新