ACL 2010-2020研究趋势总结
一只小狐貍帶你解鎖 煉丹術(shù)&NLP?秘籍
作者:哈工大SCIR 車萬翔教授
導(dǎo)讀
2020年5月23日,有幸受邀在中國中文信息學(xué)會青年工作委員會主辦的AIS(ACL-IJCAI-SIGIR)2020頂會論文預(yù)講會上介紹了ACL會議近年來的研究趨勢,特整理成幻燈片配文字版,希望對相關(guān)領(lǐng)域的研究者有所幫助。由于視野所限,時間倉促,特別是ACL 2020的錄用論文列表剛發(fā)布不久,因此統(tǒng)計(jì)的數(shù)據(jù)和得出的結(jié)論難免有失偏頗,如有不當(dāng)之處,還敬請指出。另外,特別感謝組內(nèi)的多位博士生幫助進(jìn)行數(shù)據(jù)整理。
首先來看一下2010年到2020年這11年來,ACL長文的錄用情況和趨勢,可以看出從2018年開始,投稿和錄用的數(shù)量急劇上升,說明作為人工智能皇冠上的明珠,自然語言處理領(lǐng)域越來越受到研究界的關(guān)注。另外,ACL的錄用率多年來基本保持穩(wěn)定,一直在25%左右。
再來看一下今年錄用文章標(biāo)題的詞云,從中可以看出大家關(guān)注比較多的任務(wù)有生成、翻譯、對話、問答、抽取、句法等方向,用到的方法多涉及到神經(jīng)、網(wǎng)絡(luò)、注意力、圖等。另外,從文章作者的詞云可以看出前幾名的基本都是中國的大姓,這也反應(yīng)出華人作者在ACL頂會上已經(jīng)占據(jù)非常大的比例。
為了更直觀的了解近年來ACL各個研究領(lǐng)域的變化趨勢,我們做了一個領(lǐng)域趨勢競賽圖,幫助大家更好地看出各個研究領(lǐng)域此消彼長的變化過程。特別說明的是,我們的領(lǐng)域是參考ACL 2019進(jìn)行劃分的,由于其它年份的領(lǐng)域劃分方式不盡相同,我們采用人工的方式進(jìn)行了映射。另外,由于2020年目前只有文章列表,還沒有領(lǐng)域數(shù)據(jù),所以也是人工逐篇文章分的類,因此具有一定的主觀性,有可能不是特別準(zhǔn)確。
從這段視頻中,我們可以看到幾個非常明顯的趨勢,比如人機(jī)對話等新興領(lǐng)域上升勢頭迅猛,而句法分析、機(jī)器翻譯等傳統(tǒng)領(lǐng)域有所衰落。下面,就幾個變化比較明顯的領(lǐng)域分別加以介紹。
人機(jī)對話異軍突起
2015年之前,ACL上幾乎沒有人機(jī)對話的文章發(fā)表,但是從2016年開始,隨著語音識別技術(shù)的突破,NLPer開始重視人機(jī)對話的研究,今年ACL該方向上的研究重點(diǎn)和研究趨勢如下圖所示。
機(jī)器學(xué)習(xí)持續(xù)熱門
可以看到近10年來,機(jī)器學(xué)習(xí)的熱度一直居高不下,特別是隨著預(yù)訓(xùn)練模型的成功,NLP模型大有被大一統(tǒng)的趨勢。下面的一些機(jī)器學(xué)習(xí)研究方向?yàn)榻衲闍CL所重點(diǎn)關(guān)注。
文本生成強(qiáng)勢上升
嚴(yán)格來講自然語言處理應(yīng)被分為自然語言處理和自然語言生成兩個方向,然而受到技術(shù)的限制,傳統(tǒng)的文本生成多采用基于模板的方法,因此在研究上并沒有引起太多的關(guān)注。隨著序列到序列模型的產(chǎn)生,人們意識到可以采用類似的方法進(jìn)行逐詞的文本生成,從而產(chǎn)生了大量的研究和應(yīng)用問題,因此文本生成也成為了目前自然語言處理的熱門研究領(lǐng)域。今年ACL上的研究熱點(diǎn)如下圖所示。
問答系統(tǒng)絕地反擊
隨著斯坦福大學(xué)SQuAD數(shù)據(jù)集的誕生,以抽取式閱讀理解為代表的問答系統(tǒng)近年來引起了大量的關(guān)注。但是為什么說是“絕地反擊”呢?主要是因?yàn)樵诟弥?#xff0c;問答系統(tǒng)就曾經(jīng)是信息檢索和自然語言處理領(lǐng)域的熱門研究方向,但是受限于當(dāng)時的技術(shù)手段,答案準(zhǔn)確率并不是很高,因此該研究方向曾一度被人們所冷落。經(jīng)過這幾年的發(fā)展,問答系統(tǒng)的模型逐漸被預(yù)訓(xùn)練模型所統(tǒng)一,因此今年ACL上的相關(guān)文章更關(guān)注問答系統(tǒng)的各個子任務(wù)或引入更多資源。
新任務(wù)和資源挑戰(zhàn)機(jī)器
仍然是受預(yù)訓(xùn)練模型的影響,在很多剛被提出不久的自然語言處理任務(wù)上,機(jī)器的表現(xiàn)很快超過人類。因此最近有大量的研究工作試圖提出對機(jī)器更具有挑戰(zhàn)性的任務(wù)和資源,從而逼迫機(jī)器更像人一樣“思考”。
機(jī)器翻譯有所衰落
幾家歡樂幾家愁,由于上述領(lǐng)域的快速崛起,更重要的是由于模型逐漸為Transformer所統(tǒng)一,使得機(jī)器翻譯這一“老牌”自然語言處理任務(wù)受關(guān)注的程度有所降低。今年ACL的相關(guān)研究也分散到不同的翻譯場景設(shè)置上。
句法分析逐漸式微
和機(jī)器翻譯類似,句法分析這一曾經(jīng)自然語言處理領(lǐng)域的當(dāng)家任務(wù)也逐漸式微。其背后的原因有兩個:一方面是因?yàn)锽iaffine Parser的出現(xiàn)證明了結(jié)構(gòu)學(xué)習(xí)這一自然語言處理的特色問題,對于句法分析并不重要;另一方面,預(yù)訓(xùn)練模型的出現(xiàn)使得句法分析的處境更是雪上加霜。預(yù)訓(xùn)練模型不但能大幅提高句法分析的效果,更重要的是其內(nèi)部已經(jīng)蘊(yùn)含了句法結(jié)構(gòu)信息,因此就無需為下游任務(wù)提供顯式的句法結(jié)構(gòu)了。由于這些原因,今年ACL上句法分析的熱點(diǎn)也主要集中在了研究探針任務(wù)和句法分析的應(yīng)用上了。不過蘇州大學(xué)李正華老師所提出的高階TreeCRF模型還是能進(jìn)一步提升句法分析的效果,這一點(diǎn)非常難得。
語義分析
語義分析領(lǐng)域的情況稍顯復(fù)雜,對于詞級別的語義分析,當(dāng)年受到Word2vec模型的啟發(fā),產(chǎn)生了一大批相關(guān)的研究,其影響力甚至超出了自然語言處理的范圍,在知識圖譜、推薦系統(tǒng)等領(lǐng)域都廣受關(guān)注。而近年的預(yù)訓(xùn)練模型讓大家將研究重點(diǎn)從之前這種靜態(tài)詞向量轉(zhuǎn)移到了動態(tài)詞向量等方向。至于句級別語義分析,本身的定義就比較模糊,很多任務(wù)都可以歸為語義分析,如AMR、CCG Parsing等,當(dāng)然它們也可以被歸為結(jié)構(gòu)分析(Parsing)類任務(wù),所以趨勢上有所波動。
其它維度的趨勢
上面這些分析主要是從研究領(lǐng)域的趨勢變化展開的,我們還可以從其它維度進(jìn)行分析,來幫助我們更全面了解自然語言處理的研究。如下圖所示,我們總結(jié)了今年ACL上幾個熱門的研究方向,如對多語言、多模態(tài)、多領(lǐng)域和低資源的研究,融入知識的方法,圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用等。
一些雜想
最后給出我在調(diào)研過程中的一些雜想,僅供參考,歡迎大家一起討論,碰撞更多的火花。謝謝!
夕小瑤的賣萌屋
_
關(guān)注&星標(biāo)小夕,帶你解鎖AI秘籍
訂閱號主頁下方「撩一下」有驚喜哦
總結(jié)
以上是生活随笔為你收集整理的ACL 2010-2020研究趋势总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Github Star过万的阿里学长独家
- 下一篇: 学PyTorch还是TensorFlow