实话实说:中文自然语言处理的N个真实情况
文 | Liu Huanyong
按語
中文自然語言處理,目前在AI泡沫之下,真假難辨,實戰(zhàn)技術(shù)與PPT技術(shù)往往存在著很大的差異。目前關(guān)于AI或者自然語言處理,做的人與講的人往往是兩回事。
作者簡介
Liu Huanyong,就職于中國科學(xué)院軟件研究所,專注金融、情報兩大領(lǐng)域,從事事件抽取、事件演化、情感分析、事理(知識)圖譜、常識推理、語言資源構(gòu)建與應(yīng)用等研發(fā)工作。目前主持研發(fā)自然語言處理技術(shù)開放平臺數(shù)地工場、大規(guī)模實時事理知識學(xué)習(xí)系統(tǒng)學(xué)跡、全行業(yè)因果鏈查詢與溯源項目尋鏈系統(tǒng),并在智能金融、智能情報落地中負(fù)責(zé)實施了多個項目。
一些實話
深度學(xué)習(xí)在自然語言處理當(dāng)中,除了在分類問題上能夠取得較好效果外(如單選問題:情感分類、文本分類、正確答案分類問題等),在信息抽取上,尤其是在元組抽取上基本上是一塌糊涂,在工業(yè)場景下很難達(dá)到實用水準(zhǔn)。
目前各種評測集大多是人為標(biāo)注的,人為標(biāo)注的大多為干凈環(huán)境下的較為規(guī)范的文本,而且省略了真實生產(chǎn)環(huán)節(jié)中的多個環(huán)節(jié)。在評測環(huán)節(jié)中達(dá)到的諸多state-of-art方法,在真實應(yīng)用場景下泛化能力很差,大多僅僅是為了刷榜而刷榜。
目前關(guān)于知識圖譜的構(gòu)建環(huán)節(jié)中,數(shù)據(jù)大多數(shù)都還是來自于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化信息抽取次之,非結(jié)構(gòu)化數(shù)據(jù)抽取最少。半結(jié)構(gòu)化信息抽取,即表格信息抽取最為危險,一個單元格錯誤很有可能導(dǎo)致所有數(shù)據(jù)都出現(xiàn)錯誤。非結(jié)構(gòu)化抽取中,實體識別和實體關(guān)系識別難度相當(dāng)大。
工業(yè)場景下命名實體識別,標(biāo)配的BILSTM+CRF實際上只是輔助手段,工業(yè)界還是以領(lǐng)域?qū)嶓w字典匹配為主,大廠中往往在后者有很大的用戶日志,這種日志包括大量的實體信息。因此,生產(chǎn)環(huán)節(jié)中的實體識別工作中,基礎(chǔ)性詞性的構(gòu)建和擴(kuò)展工作顯得尤為重要。
目前關(guān)于知識圖譜推理問題,嚴(yán)格意義上不屬于推理的范疇,最多只能相當(dāng)于是知識補(bǔ)全問題,如評測中的知識推理任務(wù),是三元組補(bǔ)全問題。
目前輿情分析還是處于初級階段。目前輿情分析還停留在以表層計量為主,配以淺層句子級情感分析和主題挖掘技術(shù)的分析。對于深層次事件演化以及對象級情感分析依舊還處于初級階段。
Bert本質(zhì)上僅僅是個編碼器,是word2vec的升級版而已,不是無所不能,僅僅是編碼能力強(qiáng),向量表示上語義更為豐富,然而大多人都裝糊涂。
學(xué)界和業(yè)界最大的區(qū)別在于,學(xué)界以探索前沿為目的,提新概念,然后搭個草圖就結(jié)束,目光并不長遠(yuǎn),打完這一戰(zhàn)就不知道下一戰(zhàn)打什么,下一戰(zhàn)該去哪里打,什么時候打,或者打一槍換個陣地再打。而業(yè)界,往往面臨著生存問題,需要考慮實際問題,還是以解決實際問題為主,因此沒必要把學(xué)界的那一套理念融入到生產(chǎn)環(huán)節(jié)中,要根據(jù)實際情況制定自己的方法。
利用結(jié)構(gòu)化數(shù)據(jù),尤其是百科類infobox數(shù)據(jù),采集下來,存入到Neo4j圖數(shù)據(jù)庫中,就稱自己建立了知識圖譜的做法是偽知識圖譜做法。基于這類知識圖譜,再搞個簡單的問答系統(tǒng),就標(biāo)榜自己是基于知識圖譜的智能問答,實際上很膚淺。
知識圖譜不是結(jié)構(gòu)化知識的可視化(不是兩個點幾條邊)那么簡單,那叫知識的可視化,不是知識圖譜。知識圖譜的核心在于知識的圖譜化,特點在于知識的表示方法和圖譜存儲結(jié)構(gòu),前者決定了知識的抽象表示維度,后者決定了知識運(yùn)行的可行性,圖算法(圖遍歷、聯(lián)通圖、最短路徑)。基于圖譜存儲結(jié)構(gòu),進(jìn)行知識的游走,進(jìn)行知識表征和未知知識的預(yù)測。
物以稀為貴,大家都能獲取到的知識,往往價值都很低。知識圖譜也是這樣,只有做專門性的具有數(shù)據(jù)壁壘的知識圖譜,才能帶來商業(yè)價值。
目前智能問答,大多都是人工智障,通用型的閑聊型問答大多是個智障,多輪對話缺失,答非所問等問題層出不窮。垂直性的問答才是出路,但真正用心做的太少,大多都是處于demo級別。
大多數(shù)微信自然語言處理軟文實際上都不可不看,純屬浪費(fèi)時間。尤其是在對內(nèi)容的分析上,大多是抓語料,調(diào)包統(tǒng)計詞頻,提取關(guān)鍵詞,調(diào)包情感分析,做柱狀圖,做折線圖,做主題詞云,分析方法上千篇一律。應(yīng)該從根本上去做方法上的創(chuàng)新,這樣才能有營養(yǎng),從根本上來說才能有營養(yǎng)可言。文本分析應(yīng)該從淺層分析走向深層分析,更好地挖掘文本的語義信息。
目前百科類知識圖譜的構(gòu)建工作有很多,重復(fù)性的工作不少。基于開放類百科知識圖譜的數(shù)據(jù)獲取接口有復(fù)旦等開放出來,可以應(yīng)用到基本的概念下實體查詢,實體屬性查詢等,但目前僅僅只能做到一度。
基于知識圖譜的問答目前的難點在于兩個方面,1)多度也稱為多跳問題,如姚明的老婆是誰,可以走14條回答,但姚明的老婆的女兒是誰則回答不出來,這種本質(zhì)上是實體與屬性以及實體與實體關(guān)系的分類問題。2)多輪問答問題。多輪分成兩種,一種是指代補(bǔ)全問答, 如前一句問北京的天氣,后者省略“的天氣”這一詞,而只說“北京”,這個需要進(jìn)行意圖判定并準(zhǔn)確加載相應(yīng)的問答槽。另一種是追問式多輪問答,典型的在天氣查詢或者酒店預(yù)訂等垂直性問答任務(wù)上。大家要抓住這兩個方面去做。
關(guān)系挖掘是信息抽取的重要里程碑,理解了實體與實體、實體與屬性、屬性與屬性、實體與事件、事件與事件的關(guān)系是解決真正語義理解的基礎(chǔ),但目前,這方面,在工業(yè)界實際運(yùn)用中,特定領(lǐng)域中模板的性能要比深度學(xué)習(xí)多得多,學(xué)界大多采用端到端模型進(jìn)行實驗,在這方面還難以超越模版性能。
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的实话实说:中文自然语言处理的N个真实情况的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安利几个优质NLP开源项目!搜索、问答、
- 下一篇: 知乎热榜:程序员达到什么水平能拿到20k