【NLP】NLP爱好者学习资源推荐汇总
導(dǎo)讀:本文旨在整理匯總一些NLPer的學(xué)習(xí)資源,包括書籍、在線課程、博客等。本文中涉及的原始失效鏈接均已剔除或替換,博客部分均整理為近期仍在更新的博客,歡迎文末留言區(qū)交流補(bǔ)充。
書籍篇
《Speech and Language Processing》
第三版:
https://web.stanford.edu/~jurafsky/slp3/?
作者:Daniel Jurafsky & James H. Martin
主要內(nèi)容:
本書內(nèi)容涵蓋了自然語(yǔ)言處理的方方面面,從底層的詞法分詞、語(yǔ)法分析和語(yǔ)義分析,到和應(yīng)用更為接近的自然語(yǔ)言處理任務(wù),如信息抽取、機(jī)器翻譯、自動(dòng)問(wèn)答、文本摘要、對(duì)話系統(tǒng)等。書中將自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)以及語(yǔ)音識(shí)別等內(nèi)容融合在一起,把各種技術(shù)相互聯(lián)系起來(lái),讓讀者了解怎樣才能最佳地利用每種技術(shù),怎樣才能將各種技術(shù)結(jié)合起來(lái)使用。本書在國(guó)內(nèi)有中譯本《自然語(yǔ)言處理綜論》。
《Foundations of Statistical Natural Language Processing》
電子版:https://nlp.stanford.edu/fsnlp/?
作者:Chris Manning & Hinrich Schütze
主要內(nèi)容:本書涵蓋的內(nèi)容十分廣泛,分為四個(gè)部分,共16章,包括了構(gòu)建自然語(yǔ)言處理軟件工具將用到的幾乎所有理論和算法。全書的論述過(guò)程由淺入深,從數(shù)學(xué)基礎(chǔ)到精確的理論算法,從簡(jiǎn)單的詞法分析到復(fù)雜的語(yǔ)法分析,適合不同水平的讀者群的需求。本書在國(guó)內(nèi)有中譯本《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》
《Introduction to Information Retrieval》
電子版:https://nlp.stanford.edu/IR-book/?
作者:Chris Manning、Prabhakar Raghavan & Hinrich Schütze
排名/搜索領(lǐng)域的一本好書。本書在國(guó)內(nèi)有中譯本《信息檢索導(dǎo)論》
《Neural Network Methods in Natural Language Processing》
電子版:http://u.cs.biu.ac.il/~yogo/nnlp.pdf
作者:Yoav Goldberg
對(duì)NLP領(lǐng)域神經(jīng)網(wǎng)絡(luò)應(yīng)用的深入介紹。
《統(tǒng)計(jì)自然語(yǔ)言處理(第2版)》
作者:宗成慶
主要內(nèi)容:本書介紹了統(tǒng)計(jì)自然語(yǔ)言處理的基本概念、理論方法和最新研究進(jìn)展,內(nèi)容包括形式語(yǔ)言與自動(dòng)機(jī)及其在自然語(yǔ)言處理中的應(yīng)用、語(yǔ)言模型、隱馬爾可夫模型、語(yǔ)料庫(kù)技術(shù)、漢語(yǔ)自動(dòng)分詞與詞性標(biāo)注、句法分析、詞義消歧、篇章分析、統(tǒng)計(jì)機(jī)器翻譯、語(yǔ)音翻譯、文本分類、信息檢索與問(wèn)答系統(tǒng)、自動(dòng)文摘和信息抽取、口語(yǔ)信息處理與人機(jī)對(duì)話系統(tǒng)等。
《自然語(yǔ)言處理的表示學(xué)習(xí)》
本書是一本完整介紹自然語(yǔ)言處理表示學(xué)習(xí)技術(shù)的著作。書中全面介紹了表示學(xué)習(xí)技術(shù)在自然語(yǔ)言處理領(lǐng)域的最新進(jìn)展,對(duì)相關(guān)理論、方法和應(yīng)用進(jìn)行了深入介紹,并展望了未來(lái)的重要研究方向。
《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》
丘錫鵬老師的書,一方面是出版時(shí)間很新(20年5月),另一方面是書相對(duì)較小,不會(huì)給初學(xué)者造成太大壓力。
《深度學(xué)習(xí)》
《深度學(xué)習(xí)》(花書)不是一次就能讀完讀透的,已經(jīng)有基礎(chǔ)的同學(xué)可以當(dāng)作工具書來(lái)用,在碰到難題或者面試前都可以翻翻。沒(méi)有基礎(chǔ)的同學(xué)最好先看上一本。除了深度學(xué)習(xí)之外,經(jīng)典的統(tǒng)計(jì)方法也是需要了解的,業(yè)界也有一些應(yīng)用場(chǎng)景,像分詞這樣對(duì)速度要求高的任務(wù)不必要上神經(jīng)網(wǎng)絡(luò),經(jīng)典方法足矣。
《自然語(yǔ)言處理入門》
這本是HanLP的作者何晗出品的,HanLP是Github上一個(gè)21k的項(xiàng)目,基于Java高效地實(shí)現(xiàn)了分詞、詞性標(biāo)注等通用句法、語(yǔ)義任務(wù),雖然不是研究層面的,但在工業(yè)界應(yīng)用十分廣泛,很多公司的分詞基礎(chǔ)組件都是基于HanLP改的。何晗大佬的這本書主要從統(tǒng)計(jì)算法角度講解,側(cè)重于句法分析任務(wù)的理論和實(shí)踐。
《數(shù)學(xué)之美》
數(shù)學(xué)之美是吳軍老師很經(jīng)典的科普讀物,用易懂的語(yǔ)言和故事帶我們了解一個(gè)個(gè)NLP應(yīng)用。書不厚,適合閑暇時(shí)間閱讀。
《知識(shí)圖譜與深度學(xué)習(xí)》
劉知遠(yuǎn)老師、韓旭博士和孫茂松教授20年中出品的書,系統(tǒng)地介紹了知識(shí)圖譜相關(guān)模型及應(yīng)用,還有各模型的實(shí)驗(yàn)測(cè)評(píng)。
《智能問(wèn)答》+《機(jī)器翻譯》+《知識(shí)圖譜》
這三本18年底出版的系列書籍是周明、李沐、趙軍三位大佬分別署名的,主要是對(duì)該領(lǐng)域進(jìn)行體系化地分類,再介紹歷任模型、數(shù)據(jù)集等,可以當(dāng)綜述看。
《文本情感分析》
由中科院靳小龍團(tuán)隊(duì)在19年11月出版,比較新,系統(tǒng)地介紹了情感分析領(lǐng)域。
《機(jī)器閱讀理解算法與實(shí)踐》
斯坦福博士、微軟研究員朱晨光20年初的書,除了閱讀理解外還介紹了NLP基礎(chǔ),并講到了最新的BERT,同時(shí)配有閱讀理解模型代碼,適合初入該領(lǐng)域的同學(xué)。
《百面系列》
Hulu團(tuán)隊(duì)出品,基本是面試必備了。雖然基礎(chǔ)都學(xué)了,但面試時(shí)總會(huì)發(fā)現(xiàn)有知識(shí)點(diǎn)遺漏,這兩本可以幫忙迅速補(bǔ)救。
《動(dòng)手學(xué)深度學(xué)習(xí)》
李沐在19年中出版的實(shí)戰(zhàn)書,雖然使用了MXNet這個(gè)框架,但概念的講解和Python實(shí)現(xiàn)都不錯(cuò),適合快速上手。目前的深度學(xué)習(xí)框架都差不多,蹭別人源碼時(shí)用pytorch和tensorflow都有可能,不用太拘泥,初入門時(shí)主要學(xué)習(xí)模型的邏輯。
本書代碼庫(kù):
https://github.com/diveintodeeplearning/d2l-zh?
《自然語(yǔ)言處理實(shí)戰(zhàn)》
如果不想看MXNet,可以參考這本比較新的書,20年底出版,配有Keras代碼,比其他深度學(xué)習(xí)框架都容易些。
《TensorFlow自然語(yǔ)言處理》
19年7月出版,從詞向量到文本生成都有講,還不錯(cuò)。
《Machine Learning Yearning》
作者:吳恩達(dá)
吳恩達(dá)《Machine Learning Yearning》中文版pdf下載
一本培養(yǎng)機(jī)器學(xué)習(xí)思維的書
《機(jī)器學(xué)習(xí)》/《機(jī)器學(xué)習(xí)公式詳解》/《統(tǒng)計(jì)學(xué)習(xí)方法》
《機(jī)器學(xué)習(xí)公式詳解》是《機(jī)器學(xué)習(xí)》配套的公式推導(dǎo)書籍。Python 實(shí)現(xiàn)李航老師的《統(tǒng)計(jì)學(xué)習(xí)方法》一書中所有算法代碼庫(kù)地址:https://github.com/WenDesi/lihang_book_algorithm
《Pattern Recognition and Machine Learning》
本書中文譯名《模式識(shí)別與機(jī)器學(xué)習(xí)》,簡(jiǎn)稱 PRML,出自微軟劍橋研究院實(shí)驗(yàn)室主任 Christopher Bishop 大神之手。PRML 是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典著作,出版于 2007 年。該書作者 Christpher M. Bishop 是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的大家。PRML 深入淺出地介紹了模式識(shí)別與機(jī)器學(xué)習(xí)的基本理論和主要方法,不僅適合初學(xué)者學(xué)習(xí),而且對(duì)專業(yè)研究人員也有很大的參考價(jià)值。?
下載主頁(yè):https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book
本書代碼:?
http://prml.github.io/
PRML python 代碼鏈接:
https://github.com/ctgk/PRML
PRML習(xí)題答案:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/05/prml-web-sol-2009-09-08.pdf
ChillyRain 的"PRML Notes"系列博文
http://chillyrain.is-programmer.com/categories/7613/posts
在線課程篇
斯坦福大學(xué)自然語(yǔ)言處理入門課程?
教師:Dan Jurafsky & Chris Manning
https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269
斯坦福CS224d:用深度學(xué)習(xí)做自然語(yǔ)言處理?
教師:Richard Socher
http://cs224d.stanford.edu/syllabus.html?
與Manning的入門課程相比,這門課講解了更高級(jí)的機(jī)器學(xué)習(xí)算法,以及用于NLP的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)架構(gòu)。這是斯坦福大學(xué)自然語(yǔ)言小組的基于深度學(xué)習(xí)的自然語(yǔ)言處理的課程。主要介紹了自然語(yǔ)言處理領(lǐng)域廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)(例如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及遞歸神經(jīng)網(wǎng)絡(luò)等)及其在自然語(yǔ)言處理的經(jīng)典任務(wù),例如分類任務(wù)(情感分類),序列標(biāo)注任務(wù)(實(shí)體識(shí)別),序列到序列的生成任務(wù)(機(jī)器翻譯)的實(shí)際應(yīng)用。
Oxford Deep Learning for NLP class
教師:Phil Blunsom. (2017) Class by Deep Mind NLP Group.
https://github.com/oxford-cs-deepnlp-2017/lectures
DeepMind團(tuán)隊(duì)成員在牛津大學(xué)教授基于深度學(xué)習(xí)的自然語(yǔ)言處理的課程。內(nèi)容涉及到詞嵌入,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的條件語(yǔ)言模型(廣泛應(yīng)用于機(jī)器翻譯、文本摘要等)及其中的注意力機(jī)制,以及基于深度學(xué)習(xí)模型的自動(dòng)問(wèn)答等主要自然語(yǔ)言處理的任務(wù)。
CS224n
http://web.stanford.edu/class/cs224n/?
斯坦福的深度學(xué)習(xí)的自然語(yǔ)言處理,包括視頻、PPT講義。
吳恩達(dá)的機(jī)器學(xué)習(xí)
https://www.coursera.org/learn/machine-learning#syllabus?
這是機(jī)器學(xué)習(xí)的經(jīng)典視頻。這門課程由吳恩達(dá)老師主講,可以說(shuō)是機(jī)器學(xué)習(xí)入門的最熱門課程,絕大部分初學(xué)者是看這門課入門機(jī)器學(xué)習(xí)的。有人在github開源了吳恩達(dá)機(jī)器學(xué)習(xí)個(gè)人筆記,用Python復(fù)現(xiàn)了課程作業(yè),star數(shù)達(dá)到20000+,地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
吳恩達(dá)深度學(xué)習(xí)課程筆記:
https://github.com/fengdu78/deeplearning_ai_books
李宏毅老師的系列課程
http://speech.ee.ntu.edu.tw/~tlkagk/courses.html
林軒田老師的課程,機(jī)器學(xué)習(xí)基石和機(jī)器學(xué)習(xí)技法
主頁(yè):
https://www.csie.ntu.edu.tw/~htlin/mooc/?
主頁(yè)可以找到課程資料以及視頻鏈接。沒(méi)梯子也可以B站看。
教程習(xí)題解答:
https://github.com/Doraemonzzz/Learning-from-data
深度學(xué)習(xí)框架篇
Keras
官方文檔:
https://github.com/keras-team/keras中文文檔:
https://keras-cn.readthedocs.io/en/latest/
Tensorflow
官方文檔:
https://github.com/tensorflow/tensorflow中文文檔:
http://www.tensorfly.cn/中文教程:
https://github.com/CreatCodeBuild/TensorFlow-and-DeepLearning-Tutorial例子:
https://github.com/aymericdamien/TensorFlow-Examples
Pytorch
官方文檔:
https://github.com/pytorch/pytorch中文文檔:
https://pytorch.apachecn.org/#/例子:
https://github.com/yunjey/pytorch-tutorial超全資源:
https://github.com/bharathgs/Awesome-pytorch-list
論文篇
國(guó)內(nèi)有一個(gè)關(guān)于計(jì)算機(jī)的排名叫
CCF推薦排名(原鏈接丟失,以下長(zhǎng)長(zhǎng)的鏈接建議到瀏覽器打開):
https://blog.csdn.net/cxqiang2013/article/details/44837425?utm_medium=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic&dist_request_id=1328740.37902.16169828571462503&depth_1-utm_source=distribute.wap_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.wap_blog_relevant_pic
里面包羅了計(jì)算機(jī)各大領(lǐng)域的會(huì)議期刊排名,比如計(jì)算機(jī)體系結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、人工智能、數(shù)據(jù)挖掘等等。CCF 推薦排名把會(huì)議和期刊被分成 A,B,C 三類。但是這個(gè)國(guó)內(nèi)人搞的,國(guó)外基本不看這個(gè)。不過(guò)被推到這里的會(huì)議/期刊質(zhì)量都還算不錯(cuò)。
國(guó)外把 ACL、EMNLP、NAACL、COLING 被稱為 NLP 四大頂會(huì),其中唯獨(dú)ACL在CCF里面是 A 類,可見(jiàn)在 ACL 中一篇文章是很難的。ACL 學(xué)會(huì)在北美和歐洲召開分年會(huì),分別稱為NAACL和EACL。
ACL 學(xué)會(huì)下設(shè)多個(gè)特殊興趣小組,其中比較有名的諸如 SIGDAT、SIGNLL 等。而 EMNLP 則是 SIGDAT 組織的國(guó)際會(huì)議。比較有名的還有 SIGNLL 組織的 CoNLL。
NLP/CL 也有自己的旗艦學(xué)術(shù)期刊 Computational Linguistics 和 ACL 創(chuàng)辦的期刊 TACL。
作為交叉學(xué)科,也有很多相關(guān)領(lǐng)域值得關(guān)注。主要包括:信息檢索和數(shù)據(jù)挖掘領(lǐng)域:SIGIR、WWW、KDD、WSDM 等和人工智能領(lǐng)域: AAAI、IJCAI 等。
博客篇
Google研究博客
https://research.googleblog.com/
語(yǔ)言日志博客(Mark Liberman)
http://languagelog.ldc.upenn.edu/nll/
Sebastian Ruder’s blog
http://ruder.io/
Jay Alammar’s illustrated blog
http://jalammar.github.io/
NLP Highlights hosted by Matt Gardner and Waleed Ammar
https://podcasts.apple.com/us/podcast/nlp-highlights/id1235937471
蘇劍林的博客
https://kexue.fm/
其他篇
100 Days Of ML Code:
地址:
https://github.com/Avik-Jain/100-Days-Of-ML-Code
中文版地址:
https://github.com/Avik-Jain/100-Days-of-ML-Code-Chinese-VersionDeep Learning with Python:
地址:
https://github.com/fchollet/deep-learning-with-python-notebooks
中文版鏈接:
https://pan.baidu.com/s/1Fsc1gg8D8E39XhQZ_nRn2Q?
提取碼:indzReddit 超高贊免費(fèi) NLP 課程:
地址:
https://github.com/yandexdataschool/nlp_course一個(gè)提供了很多機(jī)器學(xué)習(xí)問(wèn)題的當(dāng)前最優(yōu)結(jié)果的項(xiàng)目:
地址:
https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems跟蹤 NLP 當(dāng)前最新技術(shù)進(jìn)度的項(xiàng)目:
地址:
https://github.com/yuquanle/NLP-progress川大畢業(yè)極客創(chuàng)建項(xiàng)目深度學(xué)習(xí)500問(wèn):
地址:
https://github.com/yuquanle/DeepLearning-500-questions匯集了40個(gè)關(guān)于中文 NLP 詞庫(kù)項(xiàng)目:
地址:
https://github.com/yuquanle/funNLP機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/自然語(yǔ)言處理/C/C++/Python/面試筆記:
地址:
https://github.com/yuquanle/Algorithm_Interview_Notes-Chinese清華大學(xué) NLP 組 github,很多 paper 的整理:https://github.com/thunlp/
AI Challenger 2018 baseline方法:
地址:
https://github.com/AIChallenger/AI_Challenger_2018一份很全面的機(jī)器學(xué)習(xí)算法資料,包括視頻、代碼、Demo:
地址:
https://github.com/trekhleb/homemade-machine-learning200 多個(gè)最好的機(jī)器學(xué)習(xí)、NLP 和 Python 相關(guān)教程:
地址:http://suo.im/5fTvIN機(jī)器學(xué)習(xí)小抄(像背單詞一樣理解機(jī)器學(xué)習(xí)):
地址:
https://pan.baidu.com/s/1eQpA1DknCJCgjMS8QMLOJQ?提取碼:b79u?
在JupiterNotebook下利用python和一些數(shù)據(jù)科學(xué)庫(kù)實(shí)現(xiàn)的nlp基礎(chǔ)教程,包括情感分析,句子生成等nlp基本內(nèi)容
https://github.com/adashofdata/nlp-in-python-tutorial
東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室維護(hù)的自然語(yǔ)言處理和機(jī)器學(xué)習(xí)綜述論文項(xiàng)目
https://github.com/NiuTrans/ABigSurvey
歡迎交流指正
參考資料:
[1]https://mp.weixin.qq.com/s/NKUvSe0qPpXgb4bE2ZrwfA
[2]https://mp.weixin.qq.com/s/7m90zihmoGZABP7Ib4aYIA
[3]https://mp.weixin.qq.com/s/_TWehfGCT6sKoZzYGQBsCw
[4]https://mp.weixin.qq.com/s/3WfIY5I8rJh-hs7xJRoE5A
[5]https://zhuanlan.zhihu.com/p/88404821
[6]https://mp.weixin.qq.com/s/TOPHDo4YfRVr4h6V92I-xw
[7]https://mp.weixin.qq.com/s/s7jqVhs5a6WdfsYsDFs9Vg
[8]https://mp.weixin.qq.com/s/ZB6cFfjaGJ7MiBQLb6SI4A
[9]https://mp.weixin.qq.com/s/nekdcpdhTPkyggMXzzVT2w
[10]https://www.6aiq.com/article/1584520876427
[11]https://mp.weixin.qq.com/s/po_zYjcGA01msd90bb9jRg
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【NLP】NLP爱好者学习资源推荐汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: windows7系统如何设置远程连接
- 下一篇: Windows11怎么关机重启?Wind