腾讯AI Lab NLP团队首次曝光,张潼、俞栋带队解读ACL三大前沿
本文轉(zhuǎn)載自騰訊AI Lab微信號(hào)(tencent_ailab),深度解析本屆ACL熱門研究。文章第一部分是三大前沿領(lǐng)域重點(diǎn)文章解析,包括信息抽取、問答系統(tǒng)和機(jī)器翻譯等。第二部分是ACL簡(jiǎn)介及NLP團(tuán)隊(duì)首次亮相。
騰訊AI Lab去年四月成立,今年是首次參展ACL,共計(jì)三篇文章被錄取,位居國(guó)內(nèi)企業(yè)前列。此次團(tuán)隊(duì)由實(shí)驗(yàn)室主任張潼博士與副主任俞棟博士共同帶領(lǐng)到現(xiàn)場(chǎng)交流學(xué)習(xí)。
騰訊AI Lab主任張潼博士現(xiàn)場(chǎng)演講座無虛席
參與ACL的團(tuán)隊(duì)
現(xiàn)場(chǎng)論文展示
從研究領(lǐng)域和前沿思考出發(fā),我們重點(diǎn)關(guān)注了三大領(lǐng)域的前沿研究,以下為重點(diǎn)論文評(píng)述。
以下論文均可在官網(wǎng)下載:http://t.cn/R9ynux4
問答系統(tǒng)
Question Answering System
隨著人工智能的發(fā)展,圖靈測(cè)試受到越來越多的挑戰(zhàn),問答系統(tǒng)(QA)就是其中一個(gè)嘗試:試圖讓機(jī)器用準(zhǔn)確、簡(jiǎn)潔的語言回答用戶提出的自然語言問題。近年來,基于神經(jīng)網(wǎng)絡(luò)的問答系統(tǒng)已成主流。在本屆ACL,知識(shí)問答系統(tǒng)(KBQA)及檢索式問答系統(tǒng)(IRQA)也繼續(xù)在神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)之上有新突破:一方面在知識(shí)問答系統(tǒng)中,在解決問題表示以及答案生成任務(wù)時(shí),基于端到端神經(jīng)網(wǎng)絡(luò)模型被進(jìn)一步優(yōu)化;另一方面,檢索式問答系統(tǒng)中,針對(duì)小規(guī)模文檔精確檢索以及針對(duì)大規(guī)模文檔快速檢索,有了新嘗試和突破。
一、知識(shí)問答系統(tǒng)
1、Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning
如何讓知識(shí)問答系統(tǒng)生成自然語言形式的答案目前仍是一大挑戰(zhàn),中科院發(fā)表的這篇文章給出了一種可融入外部知識(shí)庫(kù)的端到端神經(jīng)網(wǎng)絡(luò)模型。為給出一個(gè)自然的答案,此模型使用了端到端的語言模型。同時(shí)為引入外部知識(shí)庫(kù),而引入了檢索機(jī)制。針對(duì)需要結(jié)合多個(gè)事實(shí)回答的復(fù)雜問句,模型用三種不同模式獲取詞匯并進(jìn)行選取:用拷貝方式取得問句中的實(shí)體、用預(yù)測(cè)方式產(chǎn)生讓答案更自然的連接詞、用檢索方式獲取相關(guān)事實(shí)并結(jié)合多個(gè)相關(guān)事實(shí)產(chǎn)生復(fù)雜問句的自然形式的答案。論文分別在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了模型檢驗(yàn),在自動(dòng)評(píng)估和人工評(píng)估上都證實(shí)了其模型超出其他傳統(tǒng)端到端模型。
2、An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combining Global Knowledge
基于神經(jīng)網(wǎng)絡(luò)的知識(shí)問答系統(tǒng)已取得矚目成績(jī),然而傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法在進(jìn)行問句表示的同時(shí),并沒有考慮答案對(duì)其影響。這篇中科院與企業(yè)合作完成的文章中,作者提出了一種基于端到端的神經(jīng)網(wǎng)絡(luò)模型,特別地利用交叉注意力機(jī)制對(duì)問句和答案進(jìn)行互相關(guān)注。一方面利用答案信息動(dòng)態(tài)地進(jìn)行問句表示,使得問句表示更加靈活充分;另外一方面也根據(jù)問題對(duì)答案不同方面的不同關(guān)注,對(duì)問句答案得分進(jìn)行不同權(quán)重表示。此外,知識(shí)庫(kù)全局知識(shí)被進(jìn)一步引入用來訓(xùn)練Embedding并擴(kuò)展詞表,從而充分捕捉到知識(shí)庫(kù)的全局結(jié)構(gòu)信息,并緩解了傳統(tǒng)模型中的詞表溢出問題。在公開的數(shù)據(jù)集WebQuestions上,實(shí)驗(yàn)證明該方法能有效提升端到端模型實(shí)驗(yàn)性能。
二、檢索式問答系統(tǒng)
1、Gated Self-Matching Networks for Reading Comprehension and Question Answering
檢索式問答系統(tǒng)試圖從文檔中獲取問題的答案。一般步驟是先從一眾文檔中檢索相關(guān)文檔,然后再進(jìn)一步檢索出相關(guān)篇章。由北大和微軟合作發(fā)表的這篇文章重點(diǎn)解決后面一步,即閱讀理解式的問答系統(tǒng)。文章基于端到端的多層神經(jīng)網(wǎng)絡(luò)模型從篇章中獲取答案。
模型分為四部分:一是使用多層雙向神經(jīng)網(wǎng)絡(luò)編碼問題和篇章的語義向量表示;二是使用門注意力機(jī)制得到問題感知的篇章的語義向量表示;三是通過Self-Matching注意力機(jī)制提煉篇章的語義向量表示,從全部篇章中編碼最終語義向量表示;四是利用Pointer-network來預(yù)測(cè)答案邊界,從而得到最終答案。在Stanford發(fā)布的機(jī)器閱讀理解比賽數(shù)據(jù)集SQuAD上,本文提出的模型的單模型和集成模型結(jié)果都分別排名第一。
2、Coarse-to-Fine Question Answering for Long Documents
大規(guī)模文檔中檢索答案在時(shí)間有效性上目前仍是一大挑戰(zhàn),由華盛頓大學(xué)和谷歌等多家機(jī)構(gòu)聯(lián)合發(fā)表的這篇文章中,針對(duì)大規(guī)模文檔檢索提出了一種高效檢索并保持甚至提高目前最先進(jìn)模型性能的架構(gòu) - 模型分層對(duì)文檔檢索。首先使用快速模型從大規(guī)模文檔中選擇問題相關(guān)的少量句子:使用三種不同句子簡(jiǎn)單表示方式處理大規(guī)模文檔,然后利用Hard或Soft注意力機(jī)制得到文檔的一個(gè)摘要表示,并使用三種不同方式選擇少量候選句子,然后才用相對(duì)慢速的端到端神經(jīng)網(wǎng)絡(luò)模型從候選句子中產(chǎn)生最終結(jié)果。在WIKIREADING部分?jǐn)?shù)據(jù)集上,實(shí)驗(yàn)結(jié)果顯示此框架可以比基礎(chǔ)模型檢索速度高出3.5到6.7倍。
機(jī)器翻譯?
Machine Translation
粗略統(tǒng)計(jì),本屆ACL有27篇機(jī)器翻譯相關(guān)的論文(15篇長(zhǎng)文+12篇短文)。我們重點(diǎn)關(guān)注其中三個(gè)較有代表性方向的相關(guān)研究工作,并總結(jié)了相關(guān)趨勢(shì)。
一、基于句法的翻譯模型
本次會(huì)議中,有關(guān)如何在神經(jīng)網(wǎng)絡(luò)翻譯模型中引入句法信息的工作共有8篇,是本屆會(huì)議中機(jī)器翻譯領(lǐng)域的一個(gè)重要方向。受過去統(tǒng)計(jì)機(jī)器翻譯發(fā)展脈落(從基于字符串的翻譯模型到基于句法樹的翻譯模型)的啟發(fā),來自不同單位的研究者探討了各種引入句法信息的方式,包括引入源端句法樹或目標(biāo)端句法樹,使用成分句法樹或依存句法樹及至淺層組塊結(jié)構(gòu)。
騰訊AI Lab研究員參與的兩個(gè)研究[1-2]分別探索了從源端和目標(biāo)端引入句法信息的可能性。第一個(gè)工作通過使用一種簡(jiǎn)單有效的方式將句法樹轉(zhuǎn)化為句法標(biāo)簽序列,在不更改序列到序列模型框架的條件下將源端句法信息引入神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)中。第二個(gè)工作則是在解碼器端引入一個(gè)額外的組塊層,通過限定每個(gè)組塊短語中的所有詞共用一個(gè)組塊層狀態(tài)及源端上下文向量,不僅引入了目標(biāo)端的句法信息,同時(shí)以一種比較巧妙的方式引入“短語”翻譯。
*?[1]?Modeling Source Syntax for Neural Machine Translation;?[2]Chunk-Based Bi-Scale Decoder for Neural Machine Translation
二、神經(jīng)網(wǎng)絡(luò)的理解和可視化
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型自2014年被提出以來,一個(gè)主要問題是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及運(yùn)行過程的不可解釋性,讓研究者無法根據(jù)翻譯出現(xiàn)的問題對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行針對(duì)性改進(jìn)設(shè)計(jì),從而引發(fā)一個(gè)重要問題 - 當(dāng)前神經(jīng)網(wǎng)絡(luò)模型無法保證將源端語義內(nèi)容無損傳遞至目標(biāo)端,讓生成的譯文流暢度較好但忠實(shí)度不足,比如遺漏翻譯或過度翻譯錯(cuò)誤。
本次會(huì)議有兩篇論文嘗試?yán)斫饧翱梢暬窠?jīng)網(wǎng)絡(luò)模型,其中一篇ACL Outstanding Paper來自清華大學(xué)NLP組[1],他們提出了一種新的可視化方法,通過計(jì)算神經(jīng)網(wǎng)絡(luò)中任意兩個(gè)神經(jīng)元之間的相關(guān)性,為分析、理解和調(diào)試神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯提供了可能性。
[1] Visualizing and Understanding Neural Machine Translation?
另一篇論文[2]則通過外在詞性和形態(tài)標(biāo)注任務(wù)來評(píng)判通過不同粒度方法訓(xùn)練得到的詞語表示,分析神經(jīng)網(wǎng)絡(luò)翻譯模型對(duì)詞語的理解能力。
[2]What do Neural Machine Translation Models Learn about Morphology?
三、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)
本次會(huì)議同樣有多篇工作嘗試對(duì)當(dāng)前神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),其中三篇工作比較有代表性:
1、A Convolutional Encoder Model for Neural Machine Translation
在編碼器端使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)代替主流的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),在效果相當(dāng)?shù)那疤嵯滤俣忍嵘?倍。
2、Deep Neural Machine Translation with Linear Associative Unit
為當(dāng)前主流的非線性Gating RNN(比如LSTM或GRU)提供了一種線性的可能替代(Linear Associative Unit),在深層神經(jīng)網(wǎng)絡(luò)中取得了較好效果。
3、Neural Machine Translation via Binary Code Prediction
通過將時(shí)間消耗最大的詞匯表歸一化過程(Softmax)替換為高效的二進(jìn)制預(yù)測(cè)(Binary Code Prediction)問題,可極大提高翻譯模型的訓(xùn)練和解碼速度以及內(nèi)存消耗。
四、三大趨勢(shì)總結(jié)
趨勢(shì)一:神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的進(jìn)一步可視化,建立起神經(jīng)網(wǎng)絡(luò)內(nèi)部向量數(shù)字和自然語言結(jié)構(gòu)的關(guān)聯(lián),為神經(jīng)網(wǎng)絡(luò)翻譯模型提供更有效的理解和調(diào)試工具。
趨勢(shì)二、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型框架的優(yōu)化。最近的工作表明遞歸神經(jīng)網(wǎng)絡(luò)并不是神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型的惟一選擇,Facebook最近的工作使用CNN全面替代RNN,Google更進(jìn)一步只用前向神經(jīng)網(wǎng)絡(luò)+注意力機(jī)制,均取得了速度和翻譯效果上的進(jìn)步。如果找到一種在效果和可解釋性上更優(yōu)的模型框架,是未來的一個(gè)重要研究方向。
趨勢(shì)三、解決更通用的翻譯問題。雖然當(dāng)前神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法和過去的統(tǒng)計(jì)機(jī)器翻譯方法差異很大,但很多翻譯問題是相通的,所以解決通用的翻譯問題也是未來的一個(gè)研究趨勢(shì)。比如如何在資源匱乏領(lǐng)域構(gòu)建好的翻譯模型,如何進(jìn)行篇章級(jí)翻譯,以及如何在當(dāng)前詞級(jí)別的神經(jīng)網(wǎng)絡(luò)翻譯模型中進(jìn)行短語的翻譯?騰訊AI Lab最近接收的兩篇EMNLP 2017論文對(duì)后兩個(gè)問題進(jìn)行了初步探索。
信息抽取
Information Extraction
信息抽取主要是指從文本中自動(dòng)抽取特定目標(biāo)信息的技術(shù)。本次ACL大會(huì)有關(guān)信息抽取論文共計(jì)20多篇,涵蓋實(shí)體識(shí)別、事件抽取、關(guān)系抽取、三元組抽取等多個(gè)具體任務(wù),其中模型大部分還是以神經(jīng)網(wǎng)絡(luò)為主,但方法各有特點(diǎn)。我們從幾個(gè)領(lǐng)域里分別選取了一篇代表性文章進(jìn)行解讀:
1、Deep Pyramid Convolutional Neural Networks for Text Categorization
該篇論文由騰訊AI Lab和RJ Research Consulting合作完成,主要介紹了一種輕量級(jí)的詞級(jí)別深度卷積網(wǎng)絡(luò)。該模型能有效捕捉文本的全局語義信息,并能在神經(jīng)網(wǎng)絡(luò)層數(shù)增加的前提下保證計(jì)算量不變。該模型在六個(gè)分本分類(主題分類和情感分類)的公開數(shù)據(jù)集中取得目前最優(yōu)的結(jié)果。
2、Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
該論文是騰訊AI Lab研究員在中科院自動(dòng)化所讀博期間發(fā)表的三元組抽取工作,入選ACL了2017 Outstanding Papers。該論文提出了一種新型的標(biāo)記策略,通過設(shè)計(jì)特殊標(biāo)簽可有效關(guān)聯(lián)詞語與三元組之間的關(guān)系。因此,基于此標(biāo)記策略,成功地把三元組抽取問題轉(zhuǎn)換為序列標(biāo)注問題,提出了一種端對(duì)端的序列標(biāo)注模型用于三元組抽取。
3、Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms
該論文是騰訊AI Lab研究員在中科院自動(dòng)化所讀博期間研究的事件抽取工作,提出了一種直接應(yīng)用角色信息做事件識(shí)別的方法,基本思想是在事件識(shí)別過程中重點(diǎn)關(guān)注事件的角色詞。作者為此提出了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的事件識(shí)別模型,并通過有監(jiān)督的關(guān)注機(jī)制實(shí)現(xiàn)上述目標(biāo)。
4、A Local Detection Approach for Named Entity Recognition and Mention Detection
該論文針對(duì)命名實(shí)體識(shí)別任務(wù)提出了一種新穎的解決方式,并入選ACL 2017 Outstanding Papers。傳統(tǒng)的命名實(shí)體識(shí)別方法是將該任務(wù)轉(zhuǎn)換為一個(gè)序列標(biāo)注的問題,本文不再?gòu)男蛄袠?biāo)注的角度出發(fā),而是采用一種對(duì)輸入文本中的文本片段分類的方式識(shí)別實(shí)體。該論文通過固定窗口的方式獲得輸入文本中的各片段,然后利用片段的上下文背景信息及片段本身信息對(duì)片段進(jìn)行實(shí)體分類。該方法在幾個(gè)公開的實(shí)體識(shí)別數(shù)據(jù)中獲得了最優(yōu)結(jié)果。此外,相比于序列標(biāo)注的方式,該方法可以有效解決重疊實(shí)體的問題。
關(guān)于騰訊AI Lab NLP團(tuán)隊(duì)
自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)賦予計(jì)算機(jī)通過自然語言文本與外界交互的能力。NLP中心使命是追蹤和研究最前沿的自然語言文本理解和生成技術(shù),并孵化下一代自然語言處理技術(shù)與商業(yè)應(yīng)用場(chǎng)景。目前團(tuán)隊(duì)有10位基礎(chǔ)研究科學(xué)家,其中大多擁有國(guó)內(nèi)外知名院校的博士學(xué)位,在學(xué)界或工業(yè)界科研經(jīng)歷豐富。同時(shí)在應(yīng)用探索上,NLP中心與騰訊多個(gè)應(yīng)用工程師團(tuán)隊(duì)及國(guó)內(nèi)外高校及實(shí)驗(yàn)室緊密合作。
在前沿研究上,NLP中心正致力于打造一個(gè)文本理解引擎,實(shí)現(xiàn)基于語義分析、知識(shí)推理和統(tǒng)計(jì)機(jī)器學(xué)習(xí)相結(jié)合的深度文本理解。開放域人機(jī)對(duì)話是NLP領(lǐng)域目前最艱巨的任務(wù)之一,NLP中心正在打造一個(gè)開放域人機(jī)對(duì)話引擎(Open-Domain Conversation Engine),通過深度理解自然語言提升回復(fù)質(zhì)量,并允許用戶定制不同性別和語言風(fēng)格的聊天機(jī)器人。研究人員結(jié)合深度學(xué)習(xí)技術(shù)和NLP研究熱點(diǎn),取得了諸多創(chuàng)造性的成果,研究成果被近期多個(gè)相關(guān)頂級(jí)會(huì)議和刊物錄用,包括ACL會(huì)議論文3篇,EMNLP會(huì)議論文7篇,及TASLP期刊論文1篇。
在應(yīng)用探索上,NLP中心特別注重研究與具體產(chǎn)品間的交互。其文本理解、文本生成、對(duì)話和翻譯等技術(shù)應(yīng)用到了公司諸多產(chǎn)品中,提升產(chǎn)品智能化以更好服務(wù)用戶。研究人員還積極從產(chǎn)品實(shí)際需求中發(fā)現(xiàn)新的NLP問題,為學(xué)術(shù)界提供更豐富的研究課題和場(chǎng)景。
本屆ACL騰訊AI Lab被收錄的三篇論文包括:
論文一:Modeling Source Syntax for Neural Machine Translation
論文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation
論文三:Deep Pyramid Convolutional Neural Networks for Text Categorization
一分鐘了解ACL?2017
ACL(國(guó)際計(jì)算機(jī)語言協(xié)會(huì)年會(huì),Meeting of the Association for Computational Linguistics)是計(jì)算語言學(xué)里最重要的國(guó)際會(huì)議,今年是第55屆,于7月30日到8月4日在加拿大溫哥華舉辦。會(huì)議涵蓋生物醫(yī)學(xué)、認(rèn)知建模與心理語言學(xué)、交互式對(duì)話系統(tǒng)、機(jī)器翻譯等各個(gè)領(lǐng)域。
在評(píng)估會(huì)議的學(xué)術(shù)影響力指標(biāo)上,本次會(huì)議均創(chuàng)新高 ——?論文有效提交數(shù)1318 篇,包括751 篇長(zhǎng)文和 567 篇短文。錄取數(shù)為?195 篇長(zhǎng)文(18%)、104 篇短文(25%)與22 篇杰出論文(?1.6%)。而在新發(fā)布的2017谷歌學(xué)術(shù)指標(biāo)中,ACL是計(jì)算機(jī)語言學(xué)和自然語言處理領(lǐng)域排名最高的國(guó)際學(xué)術(shù)年會(huì)。
整個(gè)會(huì)議期共 367 個(gè)報(bào)告,長(zhǎng)文將展示 14 分鐘,短文 12 分鐘,密度為歷屆最高。并首次舉辦了關(guān)注女性研究群體的「WiNLP Workshop」,及可代為照顧兒童的「KiddleCorp」,方便已為人父母的研究者參會(huì)。
錄取論文涉及領(lǐng)域占比最高的五類是:信息提取檢索與問答、文檔分析和自然語言處理應(yīng)用(23.4%)、語義(12.1%)、機(jī)器翻譯(8.2%)、機(jī)器學(xué)習(xí)(7%)、生成與總結(jié)(6.5%)。而投稿熱度增長(zhǎng)最快的領(lǐng)域?yàn)閷?duì)話和交互系統(tǒng)(59.7%)、機(jī)器人視覺基礎(chǔ)(41.9% )與機(jī)器學(xué)習(xí)( 34.4%)。
騰訊AI Lab主任張潼介紹到,「ACL早期利用語法和規(guī)則分析自然語言,90年代后,隨著以LDC(Linguistic Data Consortium)為代表的自然語言數(shù)據(jù)集建立擴(kuò)充,統(tǒng)計(jì)自然語言方法在計(jì)算語言學(xué)里作用越來越大并成為主流。2000年后隨著互聯(lián)網(wǎng)高速發(fā)展及以自然語言為核心的人機(jī)交互方式興起,自然語言研究被賦予極高應(yīng)用價(jià)值。」
騰訊AI Lab副主任俞棟認(rèn)為,「自然語言的理解、表達(dá)、生成和轉(zhuǎn)換一直是自然語言處理的核心問題。近年來有很多新的解決思路和方法。今年的ACL涉及自然語言處理的各方面,尤其在語義解析、語義角色標(biāo)注、基于語義和語法的自然語言生成、機(jī)器翻譯和問答系統(tǒng)方向上都有一些有趣的工作。」
總結(jié)
以上是生活随笔為你收集整理的腾讯AI Lab NLP团队首次曝光,张潼、俞栋带队解读ACL三大前沿的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 曾国藩的正面和侧面
 - 下一篇: linpack测试工具使用说明