深度好文:2018 年 NLP 应用和商业化调查报告
、
深度好文:2018 年 NLP 應(yīng)用和商業(yè)化調(diào)查報告
閱讀數(shù):7650 2019 年 1 月 11 日
近年來,自然語言處理技術(shù)已經(jīng)取得了長足進步,成為應(yīng)用范圍最廣泛,也是最為成熟的 AI 技術(shù)之一。但實際上,自然語言處理技術(shù)在商業(yè)化應(yīng)用上卻鮮有突破性進展,真正成功或者能夠完美滿足人們?nèi)粘I钚枨蟮漠a(chǎn)品并不多。
回首 2018 年,自然語言處理領(lǐng)域不乏進展和驚喜,比如谷歌提出的 BERT 模型打破 11 項世界紀錄。然而,與年初一些專家做出的預(yù)測基本無異,這個領(lǐng)域進展緩慢的狀況很大程度上并沒有得到改善。
那么,自然語言處理技術(shù)在商業(yè)化應(yīng)用上到底是出現(xiàn)了什么問題?為何遲遲沒有大的進步?解決問題的關(guān)鍵在哪里?
本文是 AI 前線年終盤點自然語言處理技術(shù)專題系列文章之商業(yè)化篇,將通過數(shù)家代表自然語言處理技術(shù)在各行業(yè)中應(yīng)用最前沿的公司:科大訊飛、京東、騰訊、小米和氪信,來探索自然語言處理在商業(yè)化應(yīng)用層面上的現(xiàn)狀,希望能夠?qū)ν黄飘?dāng)前的瓶頸有所啟發(fā)。
原文鏈接:
商業(yè)化應(yīng)用現(xiàn)狀
發(fā)展水平:基本可用 vs 中等偏前
自然語言處理技術(shù)目前在行業(yè)應(yīng)用中究竟現(xiàn)狀如何呢?對于這個問題,專家們給出的回答有些許不同。
首先,五位專家都一致認可自然語言處理技術(shù)在行業(yè)中的應(yīng)用范圍已經(jīng)非常廣泛。科大訊飛認為,對比而言,語音技術(shù)作為感知能力的代表,應(yīng)用水平相對更高,屬于好用狀態(tài);NLP 要看具體的任務(wù),不少任務(wù)的實際應(yīng)用性能也不錯,總體上來說,NLP 行業(yè)應(yīng)用屬于基本可用狀態(tài),離真正意義上的好用還是有較長的距離。
而小米則認為,自然語言處理技術(shù)的含義很廣,籠統(tǒng)地說,NLP 和語言技術(shù)在目前的行業(yè)應(yīng)用中都處于中等偏前的水平。
相比之下,與科大訊飛有著合作的氪信很坦率地指出,語音技術(shù)由于深度學(xué)習(xí)的發(fā)展在最近幾年有很大的突破,這使得語音識別、語音合成、聲紋識別等技術(shù)均可大規(guī)模應(yīng)用在工業(yè)領(lǐng)域。但是,光有耳朵和嘴巴還是不行,這個智能系統(tǒng)最重要的是要有大腦,聽進來的話需要理解它(NLU),然后是怎么通過自己的知識積累和業(yè)務(wù)訴求來回復(fù)(NLG)。這個大腦的核心技術(shù)就是 NLP 相關(guān)的技術(shù)。但然而,坦白地說,NLP 在工業(yè)領(lǐng)域的應(yīng)用還屬于早期階段,不像視覺領(lǐng)域,行業(yè)內(nèi)已經(jīng)有具體標(biāo)桿效應(yīng)的獨角獸公司,如曠世、商湯等。很多智能交互系統(tǒng)要么只能在非常狹窄的領(lǐng)域中做簡單的任務(wù),要么有經(jīng)常被詬病的人工智障的問題,NLP 技術(shù)雖難,但任重道遠。
主要應(yīng)用領(lǐng)域和應(yīng)用場景
正如各位專家所說,目前自然語言處理技術(shù)在行業(yè)中的應(yīng)用已經(jīng)非常廣泛,包括電商、翻譯、金融、智能硬件、醫(yī)療、旅行、住宿等各個行業(yè),應(yīng)用場景涵蓋語音分析、文本分析、情感分析、意圖分析、圖形和圖像識別、互動語音回復(fù)、光符識別等,已經(jīng)應(yīng)用于公有云、私有云和混合云之上,IT 和電信商、醫(yī)療、零售、銀行等都是自然語言處理技術(shù)的終端用戶。
在這些領(lǐng)域和場景中,自然語言處理技術(shù)比較成熟的商業(yè)化包括搜索引擎、個性化推薦、廣告、細分領(lǐng)域的知識問答 / 智能問答等,常用的自然語言處理的方法包括分詞標(biāo)注、文本分類、關(guān)鍵詞分析、敏感用語識別、詞頻統(tǒng)計、觀點歸納,情感分析等。然而,雖然有不少公司標(biāo)榜自己的在產(chǎn)品中應(yīng)用了這些技術(shù),但是真正產(chǎn)生實用價值,并為企業(yè)帶來可見收益的公司卻是少數(shù)。
AI 前線通過與處在自然語言處理技術(shù)前沿的五家企業(yè):科大訊飛、京東、騰訊、小米和氪信的交流,進一步了解了當(dāng)前自然語言處理技術(shù)在企業(yè)中的應(yīng)用和商業(yè)化現(xiàn)狀。五家企業(yè)對應(yīng)的行業(yè)領(lǐng)域應(yīng)用場景分別為翻譯、智能對話與客服、智能問答、智能硬件和金融。
五家公司自然語言處理技術(shù)典型應(yīng)用一覽:
商業(yè)化現(xiàn)狀
目前為止,單純依靠 NLP 或語音技術(shù)變現(xiàn)還是一件比較困難的事。在采訪中,五家公司都表示在公司內(nèi)部財報中并沒有專門針對這兩項技術(shù)帶來收益的計算方法,甚至發(fā)生收益是否歸功于這兩項技術(shù)的爭論,感嘆語音是性價比很低的事情,離錢太遠。
因此,AI 前線并未獲得可以直觀顯示這兩項技術(shù)帶來具體收益的數(shù)據(jù)。
但是,我們可以從一些與這兩項技術(shù)密切相關(guān)的智能硬件銷售情況,側(cè)面了解到其商業(yè)化現(xiàn)狀。
比如,根據(jù)全球權(quán)威市場調(diào)研機構(gòu) Canalys 發(fā)布的 2018 年第三季度中國智能音箱報告顯示,阿里巴巴旗下天貓精靈出貨量 220 萬臺、排名第一,小米小愛音箱出貨量 190 萬臺、排名第二,百度出貨量 100 萬臺,排名第三。其中,截至 10 月底,小米小愛同學(xué)累計 80 億次喚醒,日活達 3400 萬,也間接為該公司帶來收益。
據(jù)媒體報道,科大訊飛發(fā)布的智能轉(zhuǎn)寫機器人“訊飛聽見 M1”目前已經(jīng)正式預(yù)售,此前推出的智能硬件中,訊飛翻譯機 2.0 上市 5 個月銷量超 20 萬臺。科大訊飛董事長劉慶峰稱,該公司 2C 業(yè)務(wù)翻番增長,而且現(xiàn)金流情況也很好,已經(jīng)占到公司的銷售收入的 30% 多,毛利接近 40%,“盡管激烈的市場競爭會讓翻譯機等應(yīng)硬件產(chǎn)品價格出現(xiàn)一些小的波動,但整體上翻譯機會維持在 50% 的毛利率,降價范圍在 5%~10% 之內(nèi)。”
另外,數(shù)據(jù)分析網(wǎng)站 statista 的一組數(shù)據(jù),也能反映出自然語言處理全球市場的大致狀況。數(shù)據(jù)顯示,2018 年,全球自然語言處理的市場規(guī)模達 5.8319 億美元,到 2024 年將達到約 21 億美元。
那么,在業(yè)內(nèi)人士的眼中,NLP 和語音兩項技術(shù)在商業(yè)化或落地方面的進展算是成功還是失敗呢?
對此,五位專家給出了自己各不相同的回答,但總體上都對 NLP 和語音領(lǐng)域近年來取得的進步表示肯定,表示自然語言處理技術(shù)基本處于可用狀態(tài),雖然還遠未到完善,但看好其未來的商業(yè)化應(yīng)用前景。
氪信表示,語音的率先突破引領(lǐng)了 AI 這一波的興起。今年以來基于 ELMo 模型在多個場景內(nèi)都有不俗的效果,以及最近 2 個月谷歌提出的 BERT 模型瘋狂屠榜都一再表明,基于合理的模型結(jié)構(gòu)實現(xiàn) NLP 的模型遷移有很大的發(fā)展前景,而在技術(shù)上的持續(xù)投入也會收獲累累碩果。
科大訊飛表示,技術(shù)的進展和突破非一朝一夕之功,還是要相信全球的廣大 AI 研究者,能夠給大家?guī)眢@喜。關(guān)于商業(yè)化層面,還涉及到市場、供需是否一致等一系列問題,包括國外的 Google、Facebook 等企業(yè),國內(nèi)的 BATI 等企業(yè),都在各個垂直領(lǐng)域做了很多探索,也有不少進展。總體而言,科大訊飛對 AI 技術(shù)的應(yīng)用持非常樂觀的態(tài)度,雖然當(dāng)前還面臨一些技術(shù)上的挑戰(zhàn),或者商業(yè)上的資源瓶頸等,但相信隨著 AI 市場機制的健全和剛性需求的不斷增長,AI 的更大范圍應(yīng)用將要馬上到來。
小米對自然語言處理技術(shù)的信心更強,認為總體而言,這兩項技術(shù)在商業(yè)化方面的還是比較成功的,只是由于 NLP 技術(shù)是很多商業(yè)領(lǐng)域的支撐技術(shù),因此很多商業(yè)的成功大家都不將功勞歸功于 NLP。實際上,近年來機器翻譯和文本生成領(lǐng)域取得了不小的進步。當(dāng)然,相對于其他領(lǐng)域,NLP 領(lǐng)域的提高幅度沒有那么大,一方面是因為 NLP 領(lǐng)域的相對水平已經(jīng)比較高 (相對于圖像等領(lǐng)域),另一方面,現(xiàn)有數(shù)據(jù)驅(qū)動的方法要做到自然語言的語義理解還具有相當(dāng)難度。小米認為,要真正突破,還是要理解自然語言。
騰訊認為,還是需要找到場景。以視覺為例,大家看好像人臉技術(shù)已經(jīng)非常成熟,各家公司都已經(jīng)做到 99% 精度,但最開始的商業(yè)化落地還是在安防領(lǐng)域,產(chǎn)品打磨的比較成熟了,才逐漸滲透到其他行業(yè)。自然語言處理技術(shù)我相信也需要這樣一個市場認知和接受的過程。這兩年也看到了比較多的商業(yè)化落地的產(chǎn)品,包括智能客服,知識圖譜、信息抽取等,市場熱度也在逐漸升高,騰訊表示非常有信心。當(dāng)然,一方面 NLP 技術(shù)相對視覺還不夠特別成熟,這就需要產(chǎn)學(xué)研一起摸索和進步,另一方面在商業(yè)化方面也需要找到一些核心場景和抓手,逐點突破。
京東也認為,目前自然語言理解技術(shù)在深度學(xué)習(xí)的驅(qū)動下,已經(jīng)獲得了長足的進步,無論是人工智能領(lǐng)域的頭部公司,還是基于人工智能高新科技催生出的創(chuàng)新型企業(yè),都在摸索自然語言理解技術(shù)新的應(yīng)用場景創(chuàng)新。比如京東目前就基于領(lǐng)先的自然語言理解技術(shù),結(jié)合京東零售、物流、金融等全價值鏈場景和精準數(shù)據(jù),打造出業(yè)內(nèi)領(lǐng)先的解決問題型智能對話系統(tǒng)。結(jié)合京東情感 AI、知識圖譜等技術(shù)的發(fā)展,更孵化出涵蓋售前、售中、售后的有溫度智能客戶服務(wù)、高精準的 AIoT 對話服務(wù)、大規(guī)模個性化內(nèi)容生成等有實際應(yīng)用的價值的落地探索,為京東自身的主營業(yè)務(wù)帶來巨大價值。
但是,自然語言處理技術(shù)還面臨著一大困難,那就是特定場景需要特定的模型。通用語言理解模型成為這一問題的關(guān)鍵。
NLP 和語音應(yīng)用突破難在哪?如何破局?
今年年中,Reddit 上一場關(guān)于自然語言處理技術(shù)突破的激烈爭論曾給筆者留下了深刻的印象。在這場討論中,有人認為,NLP 和語音領(lǐng)域的突破狀況有些令人失望,人們研究的熱點紛紛轉(zhuǎn)向了 GAN 和強化學(xué)習(xí),也有人認為,NLP 和語音領(lǐng)域已經(jīng)成為目前為止應(yīng)用最為廣泛和成熟的 AI 技術(shù)之一,取得的進步有目共睹。
但評論中大家一致認同的是,近年來自然語言領(lǐng)域的突破進展確實乏善可陳。為什么自然語言處理難有突破出現(xiàn)呢?
最先進的理解、推理模型,以及各自的缺陷
閱讀理解: 閱讀理解旨在考察機器在給定篇章的情況下,完成面向?qū)?yīng)問句的精準回復(fù)。斯坦福的 SQuAD 等數(shù)據(jù)集推動了這個領(lǐng)域的研究。通過最新的基于注意力機制的深度學(xué)習(xí)方法,該類閱讀理解問題的準確率已經(jīng)可以做的很高。
缺陷:當(dāng)前的閱讀理解還是在給定問句的情況下去篇章中抽取答案,且對訓(xùn)練數(shù)據(jù)的依賴相對還是較高的。機器通過利用各類知識,實現(xiàn)真正意義上對篇章的理解,還有較長的路要走。
推理: 傳統(tǒng)的符號邏輯推理業(yè)界一直都在研究,但是進展相對緩慢。一方面由于推理所涉及的領(lǐng)域非常廣泛,機器如何具備知識這個問題一直也沒有得到很好的解決,所以在解決實際推理問題的時候,往往表現(xiàn)得非常依賴人工專家知識,缺乏較好的泛化性。
近年來隨著深度學(xué)習(xí)的發(fā)展,一些近似推理的工作也被大家關(guān)注。比如以知識圖譜表示為代表的工作,將知識圖譜表示在低維連續(xù)向量空間中,并通過向量空間的語義聯(lián)系,學(xué)習(xí)概念或?qū)嶓w之間的關(guān)系,并據(jù)此進行淺層的關(guān)系推理。
目前公開最先進模型應(yīng)該是 ICLR 2018 文章中提到的 DIIN。NLI (自然語言推理)任務(wù)主要是判斷兩個句子的邏輯關(guān)系,是蘊含,互斥,還是無關(guān),一般轉(zhuǎn)化為句子 pair 的分類問題。DIIN 模型框架上遵循通用的表征學(xué)習(xí) + 交互匹配的框架,細節(jié)上把 multi-head attention 用到了極致。
缺陷: 近似推理目前比較熱門,但總體還是以相對淺層的推理為主。DIIN 在涉及時間、梳理、條件判斷的時候,準確率降至 50% 左右。就 NLI 任務(wù)而言,目前模型已經(jīng)能夠在大多數(shù)情況做到 80-90% 的準確率,但對于長尾情形的效果,反而規(guī)則、正則更好處理。
典型技術(shù)難題及解決思路
問題 1:基于 CNN 與 LSTM 模型的問答模型經(jīng)常在只“讀到”問題的一半就收斂于一個預(yù)測出的答案。這意味著模型嚴重依賴于訓(xùn)練數(shù)據(jù)的表面相關(guān)性,缺乏組合性,導(dǎo)致結(jié)果出現(xiàn)偏差。
解決思路 1: 模型依賴訓(xùn)練數(shù)據(jù)的表面相關(guān)性,實質(zhì)上是當(dāng)前深度學(xué)習(xí)技術(shù)在序列建模過程中的共性問題,本質(zhì)上屬于模型的泛化性問題。
要克服這類問題,需要研究一個相對通用普適的語義模型,該模型具有較強的泛化能力,這樣就可以讓該語義模型作為核心基礎(chǔ),為各領(lǐng)域的特有模型提供語義支撐。要設(shè)計實現(xiàn)該類模型,需要解決無監(jiān)督語義學(xué)習(xí)的問題,這類工作目前在學(xué)術(shù)界開始被關(guān)注,比如 ELMo、BERT 都是這類工作。(科大訊飛專家)
解決思路 2: 通用語義嵌入大規(guī)模預(yù)訓(xùn)練可能是預(yù)防過訓(xùn)練的一種方式。此外還需要新的合成模型。另一種方法是構(gòu)建更多復(fù)雜、大規(guī)模、真實世界的任務(wù),如開放對話或目標(biāo)導(dǎo)向?qū)υ捪嚓P(guān)的復(fù)雜結(jié)構(gòu)性任務(wù),比如銷售對話、客服對話。這些任務(wù)將促進更加普適、更綜合的模型出現(xiàn),因為在這些復(fù)雜的任務(wù)重中,表層相關(guān)模型的效果并不好,亟需合成信息模型。(京東專家)
解決思路 3: 首先通過訓(xùn)練集和測試集上的表現(xiàn)變化,判斷模型是過擬合還是欠擬合。如果是欠擬合,說明模型沒有很好地捕捉到特征,這種情況下應(yīng)該在特征的層面進行加強,把模型加深;如果是過擬合,說明參數(shù)的復(fù)雜度超過了數(shù)據(jù)的復(fù)雜度,常見的做法包括數(shù)據(jù)增強、正則、模型簡化、dropout、早停等。(騰訊專家)
解決思路 4: 具體來說,CNN 與 LSTM 模型建模問句時,很容易捕獲跟答案直接相關(guān)的問句中靠前位置詞語,如“type”和“topic”類型的詞語,不管輸入序列的長短,現(xiàn)有的 attention 模型或者 CNN 濾波都容易反復(fù)關(guān)注到這些詞,造成只“讀到”問題的一半就收斂于一個預(yù)測出的答案。
可能的解決方式包括:
嘗試 coverage 的 attention,主要思想是別讓某些詞(如問句中靠前的詞語)反復(fù)被關(guān)注到;
用 transformer 替換 CNN 或者 LSTM,transformer 的 self-attention 可以建模句子內(nèi)部的依賴信息,也可以捕獲長距離依賴,在絕大部分 NLP 任務(wù)上比 CNN、LSTM 效果好。(小米專家)
解決思路 5: 在文本處理中,CNN 網(wǎng)絡(luò)更適合于短文本中的特征提取,LSTM 網(wǎng)絡(luò)雖然在誕生之初為了解決長句子訓(xùn)練中的梯度爆炸和消失的問題,在相對較長的句子中其確實顯示了很好的效果,但是對于問答類數(shù)據(jù),文本過長導(dǎo)致 LSTM 在訓(xùn)練中遺忘句子之前的信息并且在訓(xùn)練中無法將問題的特征加到網(wǎng)絡(luò)中一塊訓(xùn)練,而導(dǎo)致效果不好。
目前對于問答模型更傾向利用基于注意力機制的網(wǎng)絡(luò),最典型的是 BERT 網(wǎng)絡(luò),完全依賴注意力機制, 另一種是依據(jù)記憶力網(wǎng)絡(luò)的結(jié)構(gòu), 像 Deep Memory Network, 通過記憶力網(wǎng)絡(luò)循環(huán)計算整個句子的注意力權(quán)重。(氪信專家)
問題 2: 現(xiàn)代 NLP 技術(shù)在基準數(shù)據(jù)集上表現(xiàn)優(yōu)良,但對于未知自然語言文本的語言理解與推理方面遠不及人類的水平。
解決思路 1: 這與第一個問題類似,也是模型的泛化能力問題。除了嘗試設(shè)計一個通用的無監(jiān)督語義模型之外,還可以重點思考如何將各類人類知識引入到機器的建模學(xué)習(xí)過程中。人類知識相對稀疏和抽象,但卻具備將各類概念和實體關(guān)聯(lián)起來的作用,所以如果機器能具備對人類知識的學(xué)習(xí)能力,那么其在處理未知信號的時候,就會表現(xiàn)的更加智能。(科大訊飛專家)
解決思路 2: 我們需要大規(guī)模、注意力具有結(jié)構(gòu)化注意力機制、普適的語言理解模型,這是通向類人水平 NLP 智能的道路。我認為最近一些進展,如 HAN、BERT、Transformer、Elmo 也是解決這個問題的方向。(京東專家)
解決思路 3: 一方面機器語言理解確實還不及人類。人類在理解語言的時候會調(diào)用很多語言之外的信息,比如常識等,相當(dāng)于海陸空聯(lián)合作戰(zhàn),模型目前還只具備學(xué)習(xí)到怎么使用一把特定的手槍,我們對此也應(yīng)該有正確的預(yù)期。另一方面,在相似的任務(wù)上和數(shù)據(jù)上,可以考慮遷移學(xué)習(xí)或者預(yù)訓(xùn)練模型來快速啟動。(騰訊專家)
解決思路 4: 在基準數(shù)據(jù)集上表現(xiàn)優(yōu)良并不代表在未知數(shù)據(jù)上表現(xiàn)好,這是機器學(xué)習(xí)領(lǐng)域的努力方向。現(xiàn)有 NLP 技術(shù)大都基于機器學(xué)習(xí)方法,因此,這也是 NLP 技術(shù)的努力方向之一。這個問題確實非常難,對于 NLP 而言,也許融合知識 (包括語言學(xué)知識、人類常識、領(lǐng)域知識等) 是一個緩解上述問題的方向。(小米專家)
解決思路 5: 這個問題不僅只限于 NLP 領(lǐng)域,在任何場景訓(xùn)練的模型如果遷移到新的未知領(lǐng)域,都會遇到模型性能劇烈下降的問題。我們需要構(gòu)建一個可快速迭代的系統(tǒng)或者框架來解決未知領(lǐng)域的問題。預(yù)訓(xùn)練的模型先快速冷啟動,收集樣本,持續(xù)監(jiān)控模型的性能,然后快速迭代模型。(氪信專家)
問題 3: 如何充分衡量模型在新的、從未見過的輸入數(shù)據(jù)上的表現(xiàn)?或者說,如何衡量系統(tǒng)的泛化能力?以及如何處理未曾見過的數(shù)據(jù)分布和任務(wù)?
解決思路 1: 可以從模型在多個不同任務(wù)上的表現(xiàn)來衡量,即擴大評估集合;另一方面,還可以將模型應(yīng)用到不同的系統(tǒng)中來評估。
嚴格來說,自然語言理解領(lǐng)域的未知數(shù)據(jù),由于空間極為龐大,很難建模或者預(yù)設(shè),因此不論是從模型評估來看,還是從模型訓(xùn)練來說,未知數(shù)據(jù)或信息的建模學(xué)習(xí),都還是一個比較大的問題。(科大訊飛專家)
解決思路 2: 對于神經(jīng)網(wǎng)絡(luò)而言,現(xiàn)在還沒有比較好的理論指導(dǎo)。ICLR`17 的最佳論文給了“Understanding Deep Learning Requires Rethinking Generalization”也說明了學(xué)界對深度學(xué)習(xí)的泛化能力的關(guān)注和討論,這篇文章做了大量的實驗,表明深度神經(jīng)網(wǎng)絡(luò)一定程度上“記憶”了輸入樣本。這篇文章同時也認為經(jīng)典統(tǒng)計機器學(xué)習(xí)理論和正則策略難以解釋深度網(wǎng)絡(luò)的泛化能力,目前來看,仍然還沒有公認的答案。(騰訊專家)
解決思路 3: 目前來看非常困難,對于未曾見過的數(shù)據(jù)分布和任務(wù),可以嘗試采用遷移學(xué)習(xí)等方法來將在其他數(shù)據(jù)上得到的規(guī)律遷移到新數(shù)據(jù)或者新任務(wù)上來。(小米專家)
解決思路 4: 首先得有一個非常合理和直觀的評價指標(biāo),其次需要在跨時間窗口或者跨場景的多批數(shù)據(jù)上充分測試,避免過擬合的現(xiàn)象。(氪信專家)
問題 4: 機器翻譯模型的訓(xùn)練,我們使用諸如交叉熵或預(yù)期句子級別 BLEU 之類的損失函數(shù)訓(xùn)練模型。這些函數(shù)已經(jīng)被證明存在偏好,而且與人類判斷不充分相關(guān)。強化學(xué)習(xí)似乎是 NLP 的一個完美選擇,因為它允許模型在模擬環(huán)境中通過反復(fù)試驗來學(xué)習(xí)類似人類的監(jiān)督信號(“獎勵”)。但是,強化學(xué)習(xí)也無法完全解決 NLP 的所有問題,強化學(xué)習(xí)在進行 NLP 時的問題主要是什么?怎么解決?
解決思路 1: 強化學(xué)習(xí)在 NLP 領(lǐng)域的應(yīng)用,最主要的問題是 reward 信號的確定問題。由于自然語言非常稀疏,屬于非連續(xù)信號,如何定義獎勵函數(shù)一直是自然語言處理領(lǐng)域的普遍難題。包括機器翻譯的 BLEU 分,文檔摘要的 ROUGE 分,雖然屬于相對客觀的指標(biāo),但還是無法直接代表人類的語義評價。因此這個問題本質(zhì)上,是如何客觀評估或者定義語義的問題。我個人認為強化學(xué)習(xí)在 NLP 領(lǐng)域暫時還不能有很好的應(yīng)用。(科大訊飛專家)
解決思路 2: 強化學(xué)習(xí)在 NLP 領(lǐng)域是一個非常強大,且具有潛力的工具,但不可以解決所有的 NLP 問題。如強化學(xué)習(xí)不能告訴你最好的損失函數(shù)是什么,因為它必須是語言 / 任務(wù)相關(guān)。而且經(jīng)典的 RL 算法需要進行拓展去解決語言問題,比如說如何處理一個接近無限的行動空間(如語言空間),如何處理一個無法簡單模仿環(huán)境的開放系統(tǒng),如何在不同的對話任務(wù)中定義獎勵,如何用少量樣本有效訓(xùn)練 RL,如何為語言建模讓訓(xùn)練迅速收斂等。(京東專家)
解決思路 3: 強化學(xué)習(xí)的序列決策特點和 NLP 的一些任務(wù)非常契合,如對話生成、摘要、翻譯等等。在 NLP 中使用強化學(xué)習(xí),首先要看適不適合轉(zhuǎn)化為一個強化學(xué)習(xí)的問題,能否定義好 agent, environment,?action, reward 這些基礎(chǔ)要素。另外在訓(xùn)練的時候,強化學(xué)習(xí)比較不穩(wěn)定,要時刻保持對算法學(xué)習(xí)過程的關(guān)注,是否在合理的狀態(tài)。在不確定的時候,可以適當(dāng)對交互環(huán)境、reward 函數(shù)做簡化,甚至可以先觀察隨機策略在一個具體的 setting 下會如何工作。剩下的就是一些具體的技巧了,比如嘗試多個隨機數(shù)種子,做數(shù)據(jù)標(biāo)準處理等。(騰訊專家)
解決思路 4: 強化學(xué)習(xí)的一個主要難點在于獎勵函數(shù)的定義,對 NLP 也是如此。人類善于定性式評判,但是機器在學(xué)習(xí)時需要定量,定性到定量的轉(zhuǎn)變十分困難。要解決這個問題,還是要從評價函數(shù)上多下功夫。(小米專家)
解決思路 5: 強化學(xué)習(xí)的范式對于 NLP 里面機器翻譯、序列生成、對話系統(tǒng)、聊天機器人等傳統(tǒng)損失函數(shù)有缺陷,但又比較容易定義獎勵函數(shù)的動態(tài)系統(tǒng)有比較好的應(yīng)用效果。但是強化學(xué)習(xí)自身的一些問題,譬如樣本利用效率低,對環(huán)境過擬合和訓(xùn)練效果不穩(wěn)定等問題也是在 NLP 里應(yīng)用強化學(xué)習(xí)的痛點。(氪信專家)
問題 5: 為什么 NLP 模型在處理簡單的常識性日常場景時那么困難?應(yīng)該怎么改善?
解決思路 1: 這其實并不是 NLP 模型獨有的問題,即使是語音、圖像等,在一些日常場景中依然無法做到很好的模式識別。我們認為日常場景簡單主要是因為我們從小到到大積累的各類生活經(jīng)驗、常識、專業(yè)知識,但機器或者單一的模型或者系統(tǒng)所“見過”或者訓(xùn)練所用到的信息非常少,導(dǎo)致處理日常場景比較困難。如何賦予機器常識推理的能力,是人工智能領(lǐng)域但共同目標(biāo),需要解決如何定義或者構(gòu)建常識知識,如何讓機器理解常識并學(xué)會靈活推理等一系列問題。(科大訊飛)
解決思路 2: 這是因為我們?nèi)狈ΤWR性數(shù)據(jù)庫、好的常識表示,以及常識在具體領(lǐng)域中的語義理解,因此會影響決策。此外,現(xiàn)在大部分 NLP benchmark 評估標(biāo)準并不包括常識。因此,學(xué)習(xí)常識最好的辦法是使用更復(fù)雜、大規(guī)模、現(xiàn)實世界的任務(wù)來促進研究和技術(shù)進步,激勵研究者發(fā)明可以從良好常識模型中受益的算法。(京東專家)
解決思路 3: 有些日常性場景已經(jīng)做得比較好,比如情感分類、開放領(lǐng)域的知識型問答等。當(dāng)然,通識的全能的 NLP 模型現(xiàn)在還沒有,也不大可能有,個人的看法還是需要一個任務(wù)一個任務(wù)地去做好。(騰訊專家)
解決思路 4: 日常場景背后包含各種復(fù)雜的上下文特征 (如天氣、位置、時段、人的情緒等),機器難以很好地形式化描述。人類的推理機制十分復(fù)雜,機器目前還很難模擬。可能的改善方法一是大量增加訓(xùn)練數(shù)據(jù),另外可以考慮融合知識和數(shù)據(jù)進行理解和推理。(小米專家)
解決思路 5: 日常場景的口語化和開放性特征在自然語言處理中都是非常具有難度的。首先,口語化的句子一般語法結(jié)構(gòu)不規(guī)整,語氣助詞較多,分析和建模難度增大;其次,日常場景開放性大,沒有足夠大的知識庫來支持日常場景的建模。在相關(guān)產(chǎn)品或者系統(tǒng)的開放上需要針對這兩點下功夫:加強對口語化語句的 text normalization 的工作,以及通過流程引導(dǎo)和產(chǎn)品設(shè)計減少場景的開放性。
此外,自然語言處理領(lǐng)域其他亟待解決的問題還有任務(wù)驅(qū)動對話系統(tǒng)、語言資源不足和偏見、預(yù)估最壞情況案例性能、領(lǐng)域適應(yīng)、有意義的文本和對話生成、遷移學(xué)習(xí)、擁有長期的目標(biāo) / 任務(wù)導(dǎo)向的人機對話、收集數(shù)據(jù)的方法、指代消解、詞義消歧、文本摘要、民主化等,這些都是業(yè)界比較關(guān)心的話題,解決了這些技術(shù)上的問題,商業(yè)化應(yīng)用才能更加順利地開展。
典型應(yīng)用難題和解決思路
問題 1:在機器翻譯領(lǐng)域,目前落地的機器翻譯解決方案大多無法完美滿足日常或重要場合的翻譯需求。以今年博鰲論壇上騰訊翻譯君出現(xiàn)的“車禍事件”為例,讓我們意識到目前的翻譯產(chǎn)品離真正的可用還有很長的路要走。
解決思路:對此,有專家認為“人機耦合”的理念將被視為未來 AI 落地的關(guān)鍵。所謂“人機耦合”的本質(zhì),是指人與機器的高效分工合作。通俗地說就是,人去做人擅長的智力工作,機器去做機器擅長的計算工作。這與通常的人工智能不一樣,通常的人工智能希望由機器解決一個任務(wù)中的所有問題,但往往在很多領(lǐng)域,機器并不能做到對所有問題的高效解決。這個時候就需要人的介入,和機器一起配合完成一個大的事情。
人機耦合之所以會成為 AI 落地的關(guān)鍵,便是由于當(dāng)前人工智能系統(tǒng)在某些方面,如理解、推理方面的能力不足,需要人工專家的幫助所決定的,這方面需要有一個引導(dǎo)及適應(yīng)的過程。
自然語言處理技術(shù)應(yīng)用場景受限,有部分原因是當(dāng)前 AI 技術(shù)瓶頸,但是相比若干年前,目前的自然語言處理技術(shù)相關(guān)的產(chǎn)品正在層出不窮。這些產(chǎn)品都有一些特點:挖掘用戶需求、解決用戶的痛點、技術(shù)層面可達。在深入理解各種 AI 能力的發(fā)展趨勢,結(jié)合不同的場景,因地制宜才是關(guān)鍵。
問題 2:在實際使用體驗中會發(fā)現(xiàn),NLP 技術(shù)在智能對話機器人系統(tǒng)中,對長句語義理解、理解人的意圖方面仍然面臨較大的困難,很難讓用戶有好的體驗。
由于中文語言的變位性特點等,長句理解一直是 NLP 中的難題,雖然學(xué)術(shù)界做過很多努力,但是目前來看,離實用還是有距離的。在短期內(nèi)從技術(shù)上解決這個問題并不現(xiàn)實,可以考慮采用一些對話技巧提高用戶體驗。全方位意圖理解也很困難,但是可以通過構(gòu)建并利用領(lǐng)域知識庫做精某些重要領(lǐng)域。正如氪信所說,可以先完成 80 分,再慢慢去優(yōu)化剩余的 20 分的體驗。
也有人認為,這類問題的解決不一定從技術(shù)上入手,可以考慮從產(chǎn)品層面,設(shè)計相應(yīng)的產(chǎn)品交互邏輯,來規(guī)避一些不必要的問題。要知道當(dāng)前系統(tǒng)的自然語言理解能力還無法真正意義上達到人類水平,如果設(shè)置過于開放的交互模式,往往會帶來很多技術(shù)上解決不了的問題。因此,解決這個問題需要技術(shù)和產(chǎn)品齊頭并進,互相配合努力。
問題 3:另外一個比較火的應(yīng)用是語音交互,然而,雖然現(xiàn)在市場上出現(xiàn)很多語音識別軟件、語音交互產(chǎn)品,如智能音箱,但智能音箱等所謂的智能語音產(chǎn)品目前能解決的問題是比較初級簡單的,在復(fù)雜場景和問題處理時的表現(xiàn)并不樂觀。至今,似乎還未出現(xiàn)過一款真正意義上的“語音交互”式產(chǎn)品。
語音交互的概念最早在手機助手上得以實現(xiàn),早期也能完成基本的助手操作。但是這個不是真正意義上的語音交互產(chǎn)品。理想的語音交互應(yīng)該要滿足人與人之間的語音溝通。從目前看,還有很長的路要走。從發(fā)展的模式上,語音交互產(chǎn)品的落地工作也會語音識別一樣,循序漸進地開展,隨著技術(shù)的不斷突破,數(shù)據(jù)的不斷迭代,形成從量變到質(zhì)變的突破。
小米也從另一個角度做了補充:按照小米首席架構(gòu)師,小米人工智能與云平臺副總裁崔寶秋的說法,真正的 AI 產(chǎn)品 (包括語音產(chǎn)品) 要做到無處不在、無所不能、與日俱增、如影隨形。要做到這點,大數(shù)據(jù)、大知識和大計算缺一不可。另外,個性化、自學(xué)習(xí)也是這類產(chǎn)品的必要屬性。
氪信也認為,真正的語音交互是想你所想,但這不必要,也不可能是完全基于語言理解技術(shù)就能做到的。學(xué)術(shù)界一直有將圖像、文字、行為等數(shù)據(jù)融合進行建模的研究,有些研究的 demo 也非常吸引眼球。因而,氪信在金融領(lǐng)域利用全域數(shù)據(jù)構(gòu)建的知識圖譜,以及不斷與合作伙伴在多個技術(shù)領(lǐng)域展開合作,包括語音、視覺等領(lǐng)域的合作,正是為了打造出真正智能、可落地的交互體驗產(chǎn)品。
未來趨勢
NLP 與語音技術(shù)從獨立走向融合協(xié)作
隨著自然語言處理技術(shù)的不斷發(fā)展和用戶的需求的改變,有人認為,自然語言處理技術(shù)已經(jīng)出現(xiàn)從獨立技術(shù)走向融合協(xié)作的趨勢。對此,五位專家一致表示同意。
AI 的能力一定不是相互獨立的,自然語言處理技術(shù)走向融合協(xié)作是必然的,就如同人的大腦的多個功能區(qū)域協(xié)同工作。訊飛在這方面一直都有布局,2015 年底推出的業(yè)界首個全雙工語音交互系統(tǒng) AIUI,其中就把語音技術(shù)與語義理解技術(shù)做了一定的融合,提升了交互的效果,3 年來在家居、汽車、家電、客服等領(lǐng)域都有成功案例。再比如語音翻譯技術(shù),一個研究趨勢就是源語言語音到目標(biāo)語言文本之間的端到端翻譯技術(shù),不用經(jīng)過傳統(tǒng)多個模塊的流水線流程(先語音識別后機器翻譯),這種端到端直接進行語音翻譯的直接好處是緩解了原先流程的錯誤級聯(lián)的缺陷。
其他趨勢
氪信:智能問答和語音搜索會是之后的發(fā)展趨勢。首先,大的互聯(lián)網(wǎng)巨頭會以語音搜索作為自己的門戶入口,其次智能問答(包括自然語言理解,自然語言生成和對話管理系統(tǒng)等)結(jié)合智能客服會大幅度提升客服的效率。這兩個需求是剛需,也是目前產(chǎn)學(xué)研都在攻克的領(lǐng)域。
科大訊飛:NLP 和語音的發(fā)展趨勢是無監(jiān)督學(xué)習(xí)。當(dāng)前的深度學(xué)習(xí)技術(shù),已經(jīng)可以在具備大量有監(jiān)督數(shù)據(jù)的情況下,實現(xiàn)對數(shù)據(jù)的充分利用和學(xué)習(xí),并解決具體的一個又一個問題。隨著時間的推移,有監(jiān)督學(xué)習(xí)的“油水”已經(jīng)越來越少了,如何讓機器無師自通、自主學(xué)習(xí),實現(xiàn)真正意義上的無監(jiān)督學(xué)習(xí),才是下一步的關(guān)鍵。比較期待在自然語言的語義建模學(xué)習(xí),以及人機對話過程中的自主學(xué)習(xí)方面出現(xiàn)突破,可以保持關(guān)注。
未來商業(yè)化潛力大的場景
科大訊飛:具有個性化特性、覆蓋全場景的語音交互,未來非常有機會成為主要的人機交互方式,具有廣闊的商業(yè)化應(yīng)用潛力;同時,語音、圖像、NLP 等人工智能技術(shù)也可以幫助許多傳統(tǒng)行業(yè)簡化工作流程、提升工作效率。
小米:NLP 技術(shù)在搜索、推薦、問答和對話等場景下仍然有較大的商業(yè)化應(yīng)用潛力。
氪信:未來,基于對話理解與知識圖譜的整合會越來越深入,而其內(nèi)涵的深度也足以支撐商業(yè)愿景。
總結(jié)
以上是生活随笔為你收集整理的深度好文:2018 年 NLP 应用和商业化调查报告的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 两个字典的合并 updat
- 下一篇: 体验paddle2.0rc版本API-M