【NLP】NLP从业人员必须知道的十大必备知识库(附资料下载)
作者?|?西山紅葉
來源|?紅葉看世界 (ID:westM_redL)
轉載請聯系授權(微信ID:?shenjiaweigogogo)
?????在過去的一年面試了許多NLP相關的技術人員,但是很多人被我內心會稱為知乎型面試者,他們對知識的汲取通常以他人的總結來做為知識的全貌,這樣的現象在互聯網中比比皆是,這也正是說明現在網絡知識獲取的便捷性。
????希望以下內容給大家帶來一些NLP的必備技能,在日后的過程中能為讀者提供幫助,寫完后發現NLP遠遠不止十大必備知識庫,知識圖譜和問答系統兩個大頭都沒說。不過下面這些知識也夠大家學段時間了。
文章最后會共享一個百度網盤鏈接給大家,提供一些資源下載地址,希望大家多多支持
一、文本匹配算法:
(1)?無監督:cosine,jaccard,eueclidean,rouge,bleu,meteor , bm25
(2) 有監督:DSSM,Siamese Network (主要區分同構和異構網絡)
????這幾個算法在思想上和應用上都很多區別,比方jaccard適合做短文本,cosine適合做長文本,bm25則適合長短文本匹配是搜索經典匹配方法,siamese network適合做同類文本,dssm適合做非同類文本,rouge/bleu/meteor適合做評價指標,。
????不過還有很多有意思的衍生,比方cosine到softcosine,jaccard到log-jaccard(textrank中文本相似度算法的計算方式),DSSM,Siamese Network?更是有無數種變化。
????在面試中很多同學連BLEU都沒聽說過,真的會讓面試官的印象分大打折扣。
????二、NLP常用基礎包:
(1)?中文分詞工具:jieba
(2)?混合學習包:sklearn
(3) NLP專用包:genism,nltk,spacy,pattern
????基礎包其實遠遠不止這些,這里只是羅列下大家最應該去熟悉的,NLTK看上去很簡單,但是里面語法樹的解析和短語的抽取都是非常值得研究的。尤其剛入門的同學,如果能靈活運用,馬上就能達到非常高的baseline。
????三、深度學習和圖算法框架:
(1)基礎框架:Pytorch,tensorflow,Keras,
(2)圖框架:Networkx,DGL,PyTorch Geometirc (PyG)
????個人建議,pytorch得熟練使用,其框架優勢用一句話概括就是:兩年超越了tensorflow 10年成績。DGL還算不錯的框架對化學分子方向支持力度特別高,PyG比較全面。
四、NLP圖論算法:
(1) 經典圖:HMM,CRF
(2) 懷疑人生圖:GNN
??? HMM,CRF一般是NLP的必問題目,但是個人感覺其價值在于思想,理解HMM的來源和CRF的優勢,更具有價值。?
至于GNN網上資源很多推薦一個csdn,https://www.cnblogs.com/nxf-rabbit75/p/11306198.html#auto_id_16,一般人難以看懂,不必短時間能糾結,在知識積累后,每周反復去思考一小時左右足矣。
五、吹牛利器,工作神器:
(1) 通用尖端模型:ALBERT
(2)?哈佛NLP頂尖利器:OpenNMT
(3) NLP檢索之王:Elasticsearch
(4) NLP演示:AllenNLP
? ? 在工作中不要試圖去創造算法,大多數時候能合理的運用好尖端技術已不是一件容易的事了,在運用好的同時,去理解這些算法原理和思想足夠你在工作中吹牛了,先用指標去碾壓,再用思想去修飾。
? ? 為什么要提到Elasticsearch,在NLP中最常用的絕對就是搜索,在海量數據下,搜索一直是第一優先級,理解這個搜索引擎會讓你對NLP有不一樣的境界。
接下來的可能會讓你崩潰,真的太難了
六、表示學習:
(1) 詞向量表示:Fasttext
(2) 圖表示:Graph Embedding System,GAN,GCN
(3) 網絡結構表示:Struc2vec
(4) 句級別表示:SELF-ATTENTIVE SENTENCE EMBEDDING,ALBERT
?? ?這些算法和知識都適合慢慢讀,反復看,半年下來基本也就都懂了,當然不只是懂得其表面意思,git上這些論文的代碼都有,如果你真的喜歡算法,有空都可以去拉下來跑一跑。讀讀源碼會讓你在思想上升華。
七、高端操作-文本生成:
(1)完形填空:MaskGAN
(2)數據到文本:Data-to-Text
?? ?這兩個技術看上去其實都很簡單,但實際都不容易,MaskGAN是對MLM的升華,讓預選訓練更加有趣和強大。
??? Data-to-Text也是很有意思的方法,可以去看下很多互聯網電商自動化短評,都是從商品屬性和關聯信息中提取信息做到對商品的自動化描述。????
八、難以運用的尖端-文本摘要:
(1)最佳:Levenshtein Transformer,LDC,Classical Structured Prediction
(2)經典:PGN
?? ?Point-genertion-network是文本生成的經典,但是出來比較早,沒有經歷transformer的洗禮,最佳中的三個模型都是2019年新出來的,在文本生成上都是有非常高的評價,github幾乎霸榜,無論工作中用不用的到,都值得一學。? ??
九、NLP優質論文獲取地址:
??ACL,http://www.aclcargo.com/
EMNLP:https://www.aclweb.org/portal/content/emnlp-2018
NAACL:https://naacl2019.org/
ARXIV,https://arxiv.org/??
十、經典視頻和學習資料:
https://www.coursera.org/
http://cs229.stanford.edu/
http://www.deeplearningbook.org/
https://www.deeplearning.ai/
http://web.stanford.edu/class/cs224n/?
http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab
https://github.com/mhagiwara/100-nlp-papers
百度共享盤地址:
https://pan.baidu.com/s/1SVr1bXCsjYRcMDSzkWu-2g
5u9s
END
若鏈接取消,請在下方作者公眾號回復“nlp”獲取。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的【NLP】NLP从业人员必须知道的十大必备知识库(附资料下载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Facebook 号称击败谷歌,推出最强
- 下一篇: 经典算法复现!(条件随机场)CRF原理及