15个最热门的GitHub库
原文標題:15 Trending Data Science GitHub Repositories you can not miss in 2017
作者:SUNIL RAY
翻譯:楊金鴻
校對:閔黎?
本文長度為3400字,建議閱讀5分鐘
本文為你分享2017年最熱門的GitHub項目列表。
簡介
GitHub最初的只是一個控制軟件版本的工具,如今已經發展成為由來自不同背景的GitHub使用者共享他們自己開發的工具/庫,甚至是有用代碼庫。
GitHub是一座蘊藏了豐富資源的知識寶庫,您不僅可以看到最優秀的開源貢獻項目,還可以看到這些項目的代碼是如何編寫和實現的。作為一名狂熱的數據科學愛好者,我在2017年末我整理了一份最熱門的GitHub項目列表。快來享受和堅持學習吧!
目錄
一、學習資源庫
1.強大的數據科學
2.機器學習/深度學習手冊
3. 牛津深度自然語言處理課程講座
4.?PyTorch——教程
5.?NIPS?2017資源
二、開源軟件
1.?TensorFlow
2.?TuriCreate-一個簡化的機器學習庫
3.?OpenPose
4.?DeepSpeech
5. 移動深度學習
6.?Visdom
7. 深度照片類型轉換
8.?CycleGAN
9.Seq2seq
10.Pix2code
一、學習資源庫
1. 強大的科學數據科學
GitHub庫是數據科學首選的終極資源指南。多年來,它是建立在多個不同的開源的資源項目基礎之上,這些資源包括從入門指南、信息圖表到人們的社交資源網站如:twitter、facebook、Instagram等。不管你是新手還是老手,這里都有大量的項目資源等待著你學習。
從GitHub庫的目錄結構中可以看出,所有的Github庫都是與各種資源庫的深度集合。
Github庫的連接地址:
https://github.com/bulutyazilim/awesome-datascience
2. 機器學習/深度學習參考指南
這個資源庫把常用的工具和技術以參考指南的形式組織起來。這些參考指南內容從非常簡單的工具(如pandas)到非常復雜的技術(如深度學習)應有盡有。當你提供了一顆星星或分支一個資源庫之后,就不再需要通過谷歌瀏覽器來搜索常用的提示和小技巧。
讓我們來看一看有哪些不同類型的參考指南,例如pandas, numpy, scikit learn, matplotlib, ggplot, dplyr, tidyr, pySpark 和神經網絡等。
這些參考指南資料的鏈接地址:
https://github.com/kailashahirwar/cheatsheets-ai
3. 牛津大學深度自然語言處理課程
斯坦福大學的NLP課程一直是人們想要進入自然語言處理領域的黃金課程。但是隨著深度學習的出現,NLP已經取得了巨大的進步,這一切都要歸功于像RNN和LSTMs這樣的深度學習架構。
基于牛津大學NLP課程的資源庫把NLP的學習帶向了新的高度。這些課程涵蓋了與實踐操作相關的技術和術語,例如使用RNNs進行語言建模,語音識別,語音合成文本等。這個資源庫是牛津課程所有教材的一站式存儲,為實踐操作提供了必備的資料。
這個庫的鏈接地址:
https://github.com/oxford-cs-deepnlp-2017/lectures
4. PyTorch——教程
到目前為止,PyTorch是Tensorflow唯一的競爭對手。PyTorch的Python化的編碼風格、動態計算和快速的原型設計贏得了盛贊,因此獲得了深度學習社區的高度關注。
?
這個資源庫包含了用于深度學習的工作代碼,例如在PyTorch中創建一個神經網絡這樣的基本任務,以及編寫RNN、GANs和神經風格遷移算法的代碼。大多數模型的功能實現只需要30行代碼。這說明PyTorch所提供的抽象化功能,使研究人員能夠集中精力快速尋找正確的模型,而不是糾纏于編程語言或工具選擇這些細節的問題。
PyTorch庫的鏈接地址:
https://github.com/yunjey/pytorch-tutorial
?
5. NIPS 2017資源
這個資源庫提供了NIPS 2017大會的資源列表,包括了所有邀請的會談、教程講座和研討會上的資料和幻燈片。NIPS (Neural Information Processing Systems), 是專門為機器學習和計算神經科學領域舉辦的年度頂級國際會議。
在過去幾年中,在數據科學行業中發生的大多數突破性研究成果都是在這個會議上提出的。如果你想立于數據科學的潮頭,那么這里是你獲得正確資源的源頭。
?
二、開源軟件
1. TensorFlow
TensorFlow正式發布已經有2年了,但它一直保持著頂尖的機器學習/深度學習庫的地位。Google大腦和TensorFlow開發的社區一直在積極地作出貢獻,并保持與最新的技術發展同步,特別是在深度學習領域。
TensorFlow最初是一個采用數據流圖(data flow graphs),用于數值計算的開源軟件庫。但是從TensorFlow的發展現狀看,可以說它是一個構建深度學習模型的完整資源庫。雖然TensorFlow主要支持Python,但它也支持C、C++、Java等語言,最要的是它可以在移動平臺上運行。
TensorFlow的鏈接地址:
https://github.com/tensorflow/tensorflow
2. TuriCreate-一個簡化的機器學習庫
最近最熱的話題是蘋果公司的開源貢獻項目TuriCreate。它簡化了機器學習模型的創建和部署,可用于復雜的任務,如對象檢測、活動分類和推薦系統。
作為一名數據科學愛好者,我記得Turi創建了GraphLab——一個神奇的機器學習庫,因而被蘋果公司收購。數據科學行業的每個人都在期待這種爆炸性的事情發生。
TuriCreate是專門為Python的使用者開發的。它提供的最好的功能之一是可以輕松地將機器學習模型部署到Core ML(蘋果公司的另一個開源軟件)中,使用在iOS、macOS、watchOS和tvOS的應用程序中。
TuriCreate的鏈接地址:
https://github.com/apple/turicreate
3. OpenPose
OpenPose是一個多目標人體關鍵點檢測庫,它可以幫助你實時檢測圖像或視頻中人的位置。OpenPose由CMU的感知計算實驗室開發,下面這個例子很好地說明了開源的研究項目也可以很容易被工業界接受。
動圖請查看原文鏈接
OpenPose這個最好的使用案例是幫助人們解決活動檢測的問題。例如,參與者所做的動作可以被實時捕獲。然后,這些關鍵點和他們的動作可以被制作成動畫電影。
OpenPose用C++的API訪問。同時,也可以用簡單的命令行界面來處理圖像或者視頻。
OpenPose的鏈接地址:
https://github.com/CMU-Perceptual-Computing-Lab/openpose
4. DeepSpeech
DeepSpeech庫是百度研究中最先進的語音文本合成技術的開源項目。它基于TensorFlow,可以在Python,NodeJS和命令行中使用。
Mozilla是從無到有參與構建開源DeepSpeech庫的主要成員之一“只有少數幾家主導商業優質語音識別服務的大公司才可以做出好的深度語言技術。這不僅減少了用戶的可選擇性,也降低了初創公司、研究人員甚至更大的公司對產品的可用性。因此這些公司想要讓他們的產品和服務變得更好,就要與志同道合的開發者、公司和研究人員組成一個社區。我們采用了先進的機器學習和各種各樣的創新技術來構建一個語音到文本的引擎”。Mozilla的技術戰略副總裁肖恩懷特在一篇博文(https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/)中寫道。
DeepSpeech庫的鏈接地址:
https://github.com/CMU-Perceptual-Computing-Lab/openpose
5. 移動深度學習
這個知識庫為移動平臺帶來了最先進的數據科學技術。該知識庫是由百度研究開發,目的是在Android和IOS等移動設備上部署深度學習模型,降低復雜性,提高運行速度。用移動深度學習庫中的一個簡單的用例來解釋,例如對象檢測,它可以識別一個移動物體在圖像中的確切位置,是不是很酷啊?
動圖請查看原文鏈接
移動深度學習庫的地址:
https://github.com/baidu/mobile-deep-learning
6. Visdom
Visdom是一個支持在協作者之間傳播圖形、圖像和文本的庫。您可以通過編寫程序程或UI生成您的可視化空間,創建實時數據的顯示板,檢查實驗結果,或調試實驗代碼。
對于繪圖函數輸入的精度不同,盡管它們中的大多數都是輸入一個張量(三維)X不包含數據,和一個(可選擇)張量(三維)Y包含可選的數據變量(如標簽或時間戳)。繪圖函數支持所有的基本繪圖類型,創建由Plotly提供的可視化。
Visdom支持在Python中使用Torch和Numpy。
Visdom庫的連接地址:
https://github.com/facebookresearch/visdom
7. 深度照片類型轉換
該庫來源于一篇研究論文(https://arxiv.org/pdf/1703.07511.pdf),介紹了一種深入學習攝影類型轉換方法,它可以處理大量的圖像內容,忠實傳遞圖片相關類型樣式。該方法成功地抑制了失真,并在各種場景中,,包括時間的轉移、天氣、季節和藝術編輯,產生了令人滿意的相片般逼真的風格。這段代碼是基于Torch實現。
該庫的連接地址:
https://github.com/luanfujun/deep-photo-styletransfer
8. CycleGAN
CycleGAN是一個有趣且功能強大的庫,展示了潛在的最先進技術。舉個例子,下面的圖片是該庫可以做的事情——調整圖像的深度感知。它的先進性在于不需要你告訴算法,需要處理圖像的哪一部分,它能通過自己的算法做出判斷。
目前,該庫是用Lua編寫的,但也可以在命令行中使用。
該庫的鏈接地址:
https://github.com/junyanz/CycleGAN
9. Seq2seq
Seq2seq最初是為機器翻譯而編寫的,但后來被開發用于各種其他任務,包括摘要、會話建模和圖像字幕。只要一個問題能夠以一種格式編碼輸入并解碼成另一種格式輸出,就可以使用這個框架。它是用Python中流行的Tensorflow庫編寫的。
該庫的鏈接地址:
https://github.com/google/seq2seq
10. Pix2code
Pix2code是深度學習領域一個非常振奮的項目,這個項目的功能點在于試圖給GUI自動生成代碼。當構建網站或移動界面時,前端工程師通常需要編寫重復的代碼,這個耗時且非生產性的工作阻礙了開發人員將大部分時間用于實現他們正在構建的軟件的實際功能和邏輯。Pix2code可自動完成這個這個繁瑣的工作。它基于一種新穎的方法,允許從單個GUI屏幕截圖中生成計算機標識語言作為輸入。
這有是一個解釋pix2code用例的視頻,鏈接地址:
https://youtu.be/pqKeXkhFA3I
Pix2code是用python編寫的,可用于捕獲移動和web界面的圖像并將其轉換成代碼。
該庫的連接地址:
https://github.com/tonybeltramelli/pix2code
尾注
我希望你能了解到2017年GitHub上發布的一些新開源工具或技術。如果你在過去看到過更多這樣有用的資源,請在下面的評論中告訴我。
?
原文鏈接:
https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/
總結
以上是生活随笔為你收集整理的15个最热门的GitHub库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Protobuf 的 proto3 与
- 下一篇: linux监控目录变动