2022nlp视频教程大全 NLP自然语言处理教程 自然语言处理NLP从入门到项目实战
獲取更多NLP實戰資料
?
系統性地學NLP本來就既不可能也沒必要,這么大個領域,而且一直在飛速發展,等你學完了黃花菜都涼了。
NLP的方法可以分成基于規則的方法和基于統計的方法。由于自然語言具備歧義性、遞歸性和創新性等特點,基于規則的方法局限性非常大, 因此主流的是基于統計的方法——機器學習/深度學習方法可以視作基于統計的方法的延伸。
到2020年的今天,數據驅動的監督式學習方法(包括傳統機器學習和深度學習)基本上成了NLP的主流——所以你只需要首先從機器學習/深度學習方法入手就可以了,其他的可以隨用隨學。
我自己把目前的監督式學習方法分成了三類,把這三類方法都掌握了基本上你就可以擁有一個比較系統的知識框架了,足夠解決絕大多數問題,其他的隨用隨學就行:
(1)基于統計特征的傳統機器學習方法:直接用常見的SVM、決策樹等模型加上針對文本的特征工程(例如TF-IDF),對于小數據集和計算資源緊張的情況依然有很大用處——基本上如果要執行文本分類任務的話用SVM跑個baseline是必須的
(2)基于非上下文相關的詞向量的傳統深度學習方法:使用word2vec,GloVe和FastText等工具,將文本轉化為嵌入式詞向量,然后輸入到神經網絡中,這里使用的神經網絡也基本上是跟深度學習其他方向通用的,比如全連接網絡,CNN、RNN,圖神經網絡和Self-Attention等(注意單獨的Transformer編碼器和BERT不是一個東西),一般適用于計算資源比(1)充裕一點,但還是比較緊張的情況。
(3)基于上下文相關預訓練語言模型(Pretrain LM)的方法:大名鼎鼎的BERT和各種各樣的衍生模型,它幾乎改變了NLP領域的游戲規則,對于絕大多數任務來說幾乎就是萬靈藥一樣的存在,但因為計算代價太大,目前還沒有到包打天下的程度。
基本上你從這三個方面入手,差不多就可以建立一個比較完整的NLP知識體系了,做大部分任務都可以從這個體系出發,查漏補缺地學一些其他的知識就可以上手了。至于具體怎么學,非常簡單,直接斯坦福CS229+CS224n全家桶就可以了,最多加一個CS276補一下文本統計特征提取。
總結
以上是生活随笔為你收集整理的2022nlp视频教程大全 NLP自然语言处理教程 自然语言处理NLP从入门到项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020年第四届中国BIM(数字建造)经
- 下一篇: java单元测试之mock篇