【转载保存】推荐ApacheCN开源的一个机器学习路线图
轉(zhuǎn)載:https://mp.weixin.qq.com/s/EMWFFPsaKaGc8FO1g-htzg
推薦ApacheCN開(kāi)源的一個(gè)機(jī)器學(xué)習(xí)路線圖
原創(chuàng):?機(jī)器學(xué)習(xí)初學(xué)者?機(jī)器學(xué)習(xí)初學(xué)者?今天
推薦一個(gè)ApacheCN開(kāi)源的一個(gè)機(jī)器學(xué)習(xí)路線圖:
https://github.com/apachecn/AiLearning
注意:需要直接打開(kāi)網(wǎng)址或者“閱讀原文”才能打開(kāi)文章里的鏈接
?
路線圖
按照步驟: 1 => 2 => 3,你可以當(dāng)大牛!
1.機(jī)器學(xué)習(xí) - 基礎(chǔ)
-
Machine Learning in Action (機(jī)器學(xué)習(xí)實(shí)戰(zhàn)) |?ApacheCN(apache中文網(wǎng))
-
電子版書籍:【機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-中文版-帶目錄版.pdf】
-
-- 感謝?飛龍小哥哥?生成的電子書《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-ApacheCN.pdf》
-
視頻已更新完成,如果你覺(jué)得有價(jià)值,請(qǐng)幫忙點(diǎn) Star【后續(xù)組織學(xué)習(xí)活動(dòng):sklearn、kaggle、 Pytorch 和 tensorflow】
-
-- 視頻網(wǎng)站:優(yōu)酷 /bilibili / Acfun / 網(wǎng)易云課堂,可直接在線播放。(最下方有相應(yīng)鏈接)
-
-- 群小哥哥:紅色石頭: 臺(tái)灣大學(xué)林軒田機(jī)器學(xué)習(xí)筆記
-
推薦一個(gè)機(jī)器學(xué)習(xí)筆記:?
https://feisky.xyz/machine-learning網(wǎng)站視頻
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?1?章:?機(jī)器學(xué)習(xí)基礎(chǔ)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?2?章: KNN?近鄰算法
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?3?章:?決策樹(shù)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?4?章:?樸素貝葉斯
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?5?章: Logistic回歸
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?6?章: SVM?支持向量機(jī)
網(wǎng)上組合內(nèi)容
第?7?章:?集成方法(隨機(jī)森林和?AdaBoost)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?8?章:?回歸
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?9?章:?樹(shù)回歸
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?10?章: K-Means?聚類
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?11?章:?利用?Apriori?算法進(jìn)行關(guān)聯(lián)分析
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?12?章: FP-growth?高效發(fā)現(xiàn)頻繁項(xiàng)集
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?13?章:?利用?PCA?來(lái)簡(jiǎn)化數(shù)據(jù)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?14?章:?利用?SVD?來(lái)簡(jiǎn)化數(shù)據(jù)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
第?15?章:?大數(shù)據(jù)與?MapReduce
Ml項(xiàng)目實(shí)戰(zhàn)
第?16?章:?推薦系統(tǒng)(已遷移)
第一期的總結(jié)
2017-04-08:?第一期的總結(jié)
知乎問(wèn)答-爆炸啦-機(jī)器學(xué)習(xí)該怎么入門?
?
視頻怎么看?
理論科班出身-建議去學(xué)習(xí) Andrew Ng 的視頻(Ng 的視頻絕對(duì)是權(quán)威,這個(gè)毋庸置疑)
編碼能力強(qiáng) - 建議看我們的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-教學(xué)版》
編碼能力弱 - 建議看我們的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)-討論版》,不過(guò)在看理論的時(shí)候,看 教學(xué)版-理論部分;討論版的廢話太多,不過(guò)在講解代碼的時(shí)候是一行一行講解的;所以,根據(jù)自己的需求,自由的組合。
【免費(fèi)】數(shù)學(xué)教學(xué)視頻 - 可汗學(xué)院 入門篇
-
@于振梓?推薦: 可汗學(xué)院-網(wǎng)易公開(kāi)課
| 可汗學(xué)院(概率) | 可汗學(xué)院(統(tǒng)計(jì)學(xué)) | 可汗學(xué)院(線性代數(shù)) |
機(jī)器學(xué)習(xí)視頻 - ApacheCN 教學(xué)版
| AcFun | B站 |
| 優(yōu)酷 | 網(wǎng)易云課堂 |
【免費(fèi)】機(jī)器/深度學(xué)習(xí)視頻 - 吳恩達(dá)
| 吳恩達(dá)機(jī)器學(xué)習(xí) | 神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí) |
2.深度學(xué)習(xí) - 基礎(chǔ)
深度學(xué)習(xí)必學(xué)
反向傳遞:?
https://www.cnblogs.com/charlotte77/p/5629865.html
CNN原理:?
http://www.cnblogs.com/charlotte77/p/7759802.html
RNN原理:
?https://blog.csdn.net/qq_39422642/article/details/78676567
LSTM深入淺出的好文:?
https://blog.csdn.net/roslei/article/details/61912618
3.自然語(yǔ)言處理
學(xué)習(xí)過(guò)程中-內(nèi)心復(fù)雜的變化!!!
自從學(xué)習(xí)NLP以后,才發(fā)現(xiàn)國(guó)內(nèi)與國(guó)外的典型區(qū)別: 1. 對(duì)資源的態(tài)度是完全相反的:1) 國(guó)內(nèi):就好像為了名氣,舉辦工作裝逼的會(huì)議,就是沒(méi)有干貨,全部都是象征性的PPT介紹,不是針對(duì)在做的各位2)國(guó)外:就好像是為了推動(dòng)nlp進(jìn)步一樣,分享者各種干貨資料和具體的實(shí)現(xiàn)。(特別是: python自然語(yǔ)言處理) 2. 論文的實(shí)現(xiàn):1) 各種高大上的論文實(shí)現(xiàn),卻還是沒(méi)看到一個(gè)像樣的GitHub項(xiàng)目!(可能我的搜索能力差了點(diǎn),一直沒(méi)找到)2)國(guó)外就不舉例了,我看不懂! 3. 開(kāi)源的框架1)國(guó)外的開(kāi)源框架:tensorflow/pytorch 文檔+教程+視頻(官方提供)2) 國(guó)內(nèi)的開(kāi)源框架: 額額,還真舉例不出來(lái)!但是牛逼吹得不比國(guó)外差!(MXNet雖然有眾多華人參與開(kāi)發(fā),但不能算是國(guó)內(nèi)開(kāi)源框架。基于MXNet的動(dòng)手學(xué)深度學(xué)習(xí)(https://zh.diveintodeeplearning.org)中文教程,已經(jīng)由沐神(李沐)以及阿斯頓·張講授錄制,公開(kāi)發(fā)布。文檔+第一季教程+視頻) 每一次深入都要去翻墻,每一次深入都要Google,每一次看著國(guó)內(nèi)的說(shuō):哈工大、訊飛、中科大、百度、阿里 多牛逼,但是資料還是得國(guó)外去找! 有時(shí)候真的挺狠的!真的有點(diǎn)瞧不起自己國(guó)內(nèi)的技術(shù)環(huán)境!當(dāng)然謝謝國(guó)內(nèi)很多博客大佬,特別是一些入門的Demo和基本概念。【深入的水平有限,沒(méi)看懂】-
入門教程必看資料【添加比賽鏈接】:
https://github.com/apachecn/AiLearning/tree/dev/blog/nlp
-
Python 自然語(yǔ)言處理 第二版:?
https://usyiyi.github.io/nlp-py-2e-zh
-
推薦一個(gè)liuhuanyong大佬整理的nlp全面知識(shí)體系:?
https://liuhuanyong.github.io
1.使用場(chǎng)景 (百度公開(kāi)課)
第一部分 入門介紹
-
1.)?自然語(yǔ)言處理入門介紹
第二部分 機(jī)器翻譯
-
2.)?機(jī)器翻譯
第三部分 篇章分析
-
3.1.)?篇章分析-內(nèi)容概述
-
3.2.)?篇章分析-內(nèi)容標(biāo)簽
-
3.3.)?篇章分析-情感分析
-
3.4.)?篇章分析-自動(dòng)摘要
第四部分 UNIT-語(yǔ)言理解與交互技術(shù)
-
4.)?UNIT-語(yǔ)言理解與交互技術(shù)
應(yīng)用領(lǐng)域
中文分詞:
-
構(gòu)建DAG圖
-
動(dòng)態(tài)規(guī)劃查找,綜合正反向(正向加權(quán)反向輸出)求得DAG最大概率路徑
-
使用了SBME語(yǔ)料訓(xùn)練了一套 HMM + Viterbi 模型,解決未登錄詞問(wèn)題
1.文本分類(Text Classification)
文本分類是指標(biāo)記句子或文檔,例如電子郵件垃圾郵件分類和情感分析。
下面是一些很好的初學(xué)者文本分類數(shù)據(jù)集。
路透社Newswire主題分類(路透社-21578)。1987年路透社出現(xiàn)的一系列新聞文件,按類別編制索引。另見(jiàn)RCV1,RCV2和TRC2。
IMDB電影評(píng)論情感分類(斯坦福)。來(lái)自網(wǎng)站imdb.com的一系列電影評(píng)論及其積極或消極的情緒。
新聞組電影評(píng)論情感分類(康奈爾)。來(lái)自網(wǎng)站imdb.com的一系列電影評(píng)論及其積極或消極的情緒。
有關(guān)更多信息,請(qǐng)參閱帖子:單標(biāo)簽文本分類的數(shù)據(jù)集。
情感分析
比賽地址:?
https://www.kaggle.com/c/word2vec-nlp-tutorial
-
方案一(0.86):WordCount + 樸素 Bayes
-
方案二(0.94):LDA + 分類模型(knn/決策樹(shù)/邏輯回歸/svm/xgboost/隨機(jī)森林)
-
a) 決策樹(shù)效果不是很好,這種連續(xù)特征不太適合的
-
b) 通過(guò)參數(shù)調(diào)整 200 個(gè)topic,信息量保存效果較優(yōu)(計(jì)算主題)
-
-
方案三(0.72):word2vec + CNN
-
說(shuō)實(shí)話:沒(méi)有一個(gè)好的機(jī)器,是調(diào)不出來(lái)一個(gè)好的結(jié)果 (: 逃
-
通過(guò)AUC 來(lái)評(píng)估模型的效果
2.語(yǔ)言模型(Language Modeling)
語(yǔ)言建模涉及開(kāi)發(fā)一種統(tǒng)計(jì)模型,用于預(yù)測(cè)句子中的下一個(gè)單詞或一個(gè)單詞中的下一個(gè)單詞。它是語(yǔ)音識(shí)別和機(jī)器翻譯等任務(wù)中的前置任務(wù)。
它是語(yǔ)音識(shí)別和機(jī)器翻譯等任務(wù)中的前置任務(wù)。
下面是一些很好的初學(xué)者語(yǔ)言建模數(shù)據(jù)集。
古騰堡項(xiàng)目,一系列免費(fèi)書籍,可以用純文本檢索各種語(yǔ)言。
還有更多正式的語(yǔ)料庫(kù)得到了很好的研究; 例如:布朗大學(xué)現(xiàn)代美國(guó)英語(yǔ)標(biāo)準(zhǔn)語(yǔ)料庫(kù)。大量英語(yǔ)單詞樣本。谷歌10億字語(yǔ)料庫(kù)。
新詞發(fā)現(xiàn)
-
中文分詞新詞發(fā)現(xiàn)
-
python3利用互信息和左右信息熵的中文分詞新詞發(fā)現(xiàn)
-
https://github.com/zhanzecheng/Chinese_segment_augment
句子相似度識(shí)別
-
項(xiàng)目地址:?https://www.kaggle.com/c/quora-question-pairs
-
解決方案: word2vec + Bi-GRU
文本糾錯(cuò)
-
bi-gram + levenshtein
3.圖像字幕(Image Captioning)
mage字幕是為給定圖像生成文本描述的任務(wù)。
下面是一些很好的初學(xué)者圖像字幕數(shù)據(jù)集。
上下文中的公共對(duì)象(COCO)。包含超過(guò)12萬(wàn)張帶描述的圖像的集合
Flickr 8K。從flickr.com獲取的8千個(gè)描述圖像的集合。
Flickr 30K。從flickr.com獲取的3萬(wàn)個(gè)描述圖像的集合。欲了解更多,請(qǐng)看帖子:
探索圖像字幕數(shù)據(jù)集,2016年
4.機(jī)器翻譯(Machine Translation)
機(jī)器翻譯是將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言的任務(wù)。
下面是一些很好的初學(xué)者機(jī)器翻譯數(shù)據(jù)集。
加拿大第36屆議會(huì)的協(xié)調(diào)國(guó)會(huì)議員。成對(duì)的英語(yǔ)和法語(yǔ)句子。
歐洲議會(huì)訴訟平行語(yǔ)料庫(kù)1996-2011。句子對(duì)一套歐洲語(yǔ)言。有大量標(biāo)準(zhǔn)數(shù)據(jù)集用于年度機(jī)器翻譯挑戰(zhàn); 看到:
統(tǒng)計(jì)機(jī)器翻譯
機(jī)器翻譯
-
Encoder + Decoder(Attention)
?
-
參考案例:
-
http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
5.問(wèn)答系統(tǒng)(Question Answering)
問(wèn)答是一項(xiàng)任務(wù),其中提供了一個(gè)句子或文本樣本,從中提出問(wèn)題并且必須回答問(wèn)題。
下面是一些很好的初學(xué)者問(wèn)題回答數(shù)據(jù)集。
斯坦福問(wèn)題回答數(shù)據(jù)集(SQuAD)。回答有關(guān)維基百科文章的問(wèn)題。
Deepmind問(wèn)題回答語(yǔ)料庫(kù)。從每日郵報(bào)回答有關(guān)新聞文章的問(wèn)題。
亞馬遜問(wèn)答數(shù)據(jù)。回答有關(guān)亞馬遜產(chǎn)品的問(wèn)題。有關(guān)更多信息,請(qǐng)參閱帖子:
數(shù)據(jù)集:我如何獲得問(wèn)答網(wǎng)站的語(yǔ)料庫(kù),如Quora或Yahoo Answers或Stack Overflow來(lái)分析答案質(zhì)量?
6.語(yǔ)音識(shí)別(Speech Recognition)
語(yǔ)音識(shí)別是將口語(yǔ)的音頻轉(zhuǎn)換為人類可讀文本的任務(wù)。
下面是一些很好的初學(xué)者語(yǔ)音識(shí)別數(shù)據(jù)集。
TIMIT聲學(xué) - 語(yǔ)音連續(xù)語(yǔ)音語(yǔ)料庫(kù)。不是免費(fèi)的,但因其廣泛使用而上市。口語(yǔ)美國(guó)英語(yǔ)和相關(guān)的轉(zhuǎn)錄。
VoxForge。用于構(gòu)建用于語(yǔ)音識(shí)別的開(kāi)源數(shù)據(jù)庫(kù)的項(xiàng)目。
LibriSpeech ASR語(yǔ)料庫(kù)。從LibriVox收集的大量英語(yǔ)有聲讀物。
7.自動(dòng)文摘(Document Summarization)
文檔摘要是創(chuàng)建較大文檔的簡(jiǎn)短有意義描述的任務(wù)。
下面是一些很好的初學(xué)者文檔摘要數(shù)據(jù)集。
法律案例報(bào)告數(shù)據(jù)集。收集了4000份法律案件及其摘要。
TIPSTER文本摘要評(píng)估會(huì)議語(yǔ)料庫(kù)。收集了近200份文件及其摘要。
英語(yǔ)新聞文本的AQUAINT語(yǔ)料庫(kù)。不是免費(fèi)的,而是廣泛使用的。新聞文章的語(yǔ)料庫(kù)。欲了解更多信息:
文檔理解會(huì)議(DUC)任務(wù)。在哪里可以找到用于文本摘要的良好數(shù)據(jù)集?
命名實(shí)體識(shí)別
-
Bi-LSTM CRF
-
參考案例:?
http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
-
CRF推薦文檔:?
https://www.jianshu.com/p/55755fc649b1
文本摘要
-
抽取式
-
word2vec + textrank
-
word2vec推薦文檔:?
https://www.zhihu.com/question/44832436/answer/266068967
-
textrank推薦文檔:?
https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
Graph圖計(jì)算【慢慢更新】
-
數(shù)據(jù)集:?data/nlp/graph
-
學(xué)習(xí)資料: spark graphX實(shí)戰(zhàn).pdf 【文件太大不方便提供,自己百度】
進(jìn)一步閱讀
如果您希望更深入,本節(jié)提供了其他數(shù)據(jù)集列表。
維基百科研究中使用的文本數(shù)據(jù)集
數(shù)據(jù)集:計(jì)算語(yǔ)言學(xué)家和自然語(yǔ)言處理研究人員使用的主要文本語(yǔ)料庫(kù)是什么?
斯坦福統(tǒng)計(jì)自然語(yǔ)言處理語(yǔ)料庫(kù)
按字母順序排列的NLP數(shù)據(jù)集列表
該機(jī)構(gòu)NLTK
在DL4J上打開(kāi)深度學(xué)習(xí)數(shù)據(jù)
NLP數(shù)據(jù)集
國(guó)內(nèi)開(kāi)放數(shù)據(jù)集:?
https://bosonnlp.com/dev/resource
?
原文地址
https://github.com/apachecn/AiLearning
注意:需要直接打開(kāi)網(wǎng)址或者“閱讀原文”才能打開(kāi)文章里的鏈接
?
請(qǐng)關(guān)注和分享↓↓↓?
本站的知識(shí)星球(黃博的機(jī)器學(xué)習(xí)圈子)ID:92416895
目前在機(jī)器學(xué)習(xí)方向的知識(shí)星球排名第一
往期精彩回顧
-
良心推薦:機(jī)器學(xué)習(xí)入門資料匯總及學(xué)習(xí)建議(2018版)
-
黃海廣博士的github鏡像下載(機(jī)器學(xué)習(xí)及深度學(xué)習(xí)資源)
-
吳恩達(dá)老師的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)課程筆記打印版
-
機(jī)器學(xué)習(xí)小抄-(像背托福單詞一樣理解機(jī)器學(xué)習(xí))
-
首發(fā):深度學(xué)習(xí)入門寶典-《python深度學(xué)習(xí)》原文代碼中文注釋版及電子書
-
機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)
-
機(jī)器學(xué)習(xí)必備寶典-《統(tǒng)計(jì)學(xué)習(xí)方法》的python代碼實(shí)現(xiàn)、電子書及課件
-
吐血推薦收藏的學(xué)位論文排版教程(完整版)
-
Python環(huán)境的安裝(Anaconda+Jupyter notebook+Pycharm)
-
Python代碼寫得丑怎么辦?推薦幾個(gè)神器拯救你
閱讀原文
閱讀?539
?在看5
總結(jié)
以上是生活随笔為你收集整理的【转载保存】推荐ApacheCN开源的一个机器学习路线图的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Maven报错Missing artif
- 下一篇: 常用的lucene分词器-笔记