自然语言处理从零到入门 NLP
自然語言處理-Natural language processing | NLP
- 一、NLP 為什么重要?
- 二、什么是自然語言處理 – NLP
- 三、NLP 的2大核心任務
- 自然語言理解 – NLU|NLI
- 自然語言生成 – NLG
- 四、NLP 的5個難點
- 五、NLP 的4個典型應用
- 六、NLP 的 2 種途徑、3 個核心步驟
- 參考
網絡上有海量的文本信息,想要處理這些非結構化的數據就需要利用 NLP 技術。
本文將介紹 NLP 的基本概念,2大任務,4個典型應用和6個實踐步驟。
一、NLP 為什么重要?
“語言理解是人工智能領域皇冠上的明珠” - 比爾·蓋茨
在人工智能出現之前,機器智能處理結構化的數據(例如 Excel 里的數據)。但是網絡中大部分的數據都是非結構化的,例如:文章、圖片、音頻、視頻…
在非結構數據中,文本的數量是最多的,他雖然沒有圖片和視頻占用的空間大,但是他的信息量是最大的。
為了能夠分析和利用這些文本信息,我們就需要利用 NLP 技術,讓機器理解這些文本信息,并加以利用。
百度百科:
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。
自然語言處理(NLP)是計算機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。
維基百科:
自然語言處理(NLP)是計算機科學,信息工程和人工智能的子領域,涉及計算機與人類(自然)語言之間的交互,特別是如何對計算機進行編程以處理和分析大量自然語言數據。自然語言處理中的挑戰通常涉及語音識別,自然語言理解和自然語言生成。
二、什么是自然語言處理 – NLP
每種動物都有自己的語言,機器也是!
自然語言處理(NLP)就是在機器語言和人類語言之間溝通的橋梁,以實現人機交流的目的。
人類通過語言來交流,狗通過汪汪叫來交流。機器也有自己的交流方式,那就是數字信息。
不同的語言之間是無法溝通的,比如說人類就無法聽懂狗叫,甚至不同語言的人類之間都無法直接交流,需要翻譯才能交流。
而計算機更是如此,為了讓計算機之間互相交流,人們讓所有計算機都遵守一些規則,計算機的這些規則就是計算機之間的語言。
既然不同人類語言之間可以有翻譯,那么人類和機器之間是否可以通過“翻譯”的方式來直接交流呢?
NLP 就是人類和機器之間溝通的橋梁!
為什么是“自然語言”處理?
自然語言就是大家平時在生活中常用的表達方式,大家平時說的"講人話"就是這個意思。
自然語言:我背有點駝(非自然語言:我的背部呈彎曲狀)
自然語言:寶寶的經紀人睡了寶寶的寶寶(微博上這種段子一大把)
三、NLP 的2大核心任務
NLP 有2個核心的任務:
自然語言理解 – NLU | NLI
自然語言生成 – NLG
自然語言理解 – NLU|NLI
自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力,由于自然語言在理解上有很多難點(下面詳細說明),所以 NLU 是至今還遠不如人類的表現。
自然語言理解的5個難點:
自然語言生成 – NLG
NLG 是為了跨越人類和機器之間的溝通鴻溝,將非語言格式的數據轉換成人類可以理解的語言格式,如文章、報告等。
NLG 的6個步驟:
四、NLP 的5個難點
五、NLP 的4個典型應用
情感分析
互聯網上有大量的文本信息,這些信息想要表達的內容是五花八門的,但是他們抒發的情感是一致的:正面/積極的 – 負面/消極的。
通過情感分析,可以快速了解用戶的輿情情況。
聊天機器人
過去只有 Siri、小冰這些機器人,大家使用的動力并不強,只是當做一個娛樂的方式。但是最近幾年智能音箱的快速發展讓大家感受到了聊天機器人的價值。
而且未來隨著智能家居,智能汽車的發展,聊天機器人會有更大的使用價值。
語音識別
語音識別已經成為了全民級的引用,微信里可以語音轉文字,汽車中使用導航可以直接說目的地,老年人使用輸入法也可以直接語音而不用學習拼音…
機器翻譯
目前的機器翻譯準確率已經很高了,大家使用 Google 翻譯完全可以看懂文章的大意。傳統的人肉翻譯未來很可能會失業。
六、NLP 的 2 種途徑、3 個核心步驟
NLP 可以使用傳統的機器學習方法來處理,也可以使用深度學習的方法來處理。2 種不同的途徑也對應著不同的處理步驟。詳情如下:
方式 1:傳統機器學習的 NLP 流程
語料預處理
- 中文語料預處理 4 個步驟(下文詳解)
- 英文語料預處理的 6 個步驟(下文詳解)
特征工程
- 特征提取
- 特征選擇
選擇分類器
方式 2:深度學習的 NLP 流程
- 中文語料預處理 4 個步驟(下文詳解)
- 英文語料預處理的 6 個步驟(下文詳解)
英文 NLP 語料預處理的 6 個步驟
中文 NLP 語料預處理的 4 個步驟
參考
NLP (百度百科)
NLP (維基百科)
書籍:
《統計自然語言處理基礎》
《自然語言處理綜論》
《Python自然語言處理》
開拓視野:
NLP領域中的遷移學習現狀
觀點 | 認知智能的突圍:NLP、知識圖譜是AI下一個“掘金地”?
從發展滯后到不斷突破,NLP已成為AI又一燃爆點?
【技術綜述】深度學習在自然語言處理中的應用發展史
干貨|最全自然語言處理attention綜述
AI產品經理必備知識:8個最先進的NLP領域的預訓練模型
8種優秀預訓練模型大盤點,NLP應用so easy
從基于規則到深度學習,NLP 技術進階三部曲
中文對比英文自然語言處理NLP的區別綜述
百度發布NLP模型ERNIE,基于知識增強,在多個中文NLP任務中表現超越BERT
自然語言處理中注意力機制綜述
21種NLP任務激活函數大比拼:你一定猜不到誰贏了
深度好文:2018年NLP應用和商業化調查報告
5 分鐘入門 Google 最強NLP模型:BERT
NLP技術落地為何這么難?里面有哪些坑?
微軟亞洲研究院:NLP將迎來黃金十年
橫掃13項中文NLP任務:香儂科技提出漢語字形表征向量Glyce+田字格CNN
深度長文:中文分詞的十年回顧
現有模型還“不懂”自然語言:20多位研究者談NLP四大開放性問題
對話清華NLP實驗室劉知遠:NLP搞事情少不了知識庫與圖神經網絡
中文分詞十年又回顧: 2007-2017
實踐:
賽爾筆記 | 四種常見NLP框架使用總結
8種優秀預訓練模型大盤點,NLP應用so easy!
NLP 分詞的那些事兒
自然語言處理是如何工作的?一步步教你構建 NLP 流水線
自然語言處理三大特征抽取器(CNN/RNN/TF)比較
Python 英文文本預處理:步驟、使用工具及示例
NLP輸出文本評估:使用BLEU需要承擔哪些風險?
初學者|NLP相關任務簡介
資源:
NPL學習者的福利來啦,GitHub上的NLP中文詞庫資源,拿走吧!
NLP領域最優秀的8個預訓練模型(附開源地址)
Facebook開源NLP遷移學習工具包,支持93種語言,性能最優
支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
總結
以上是生活随笔為你收集整理的自然语言处理从零到入门 NLP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle集合类型
- 下一篇: 武汉大学计算机应用技术考研经验分享,武汉