在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?
一只小狐貍帶你解鎖煉丹術&NLP秘籍
大數據文摘出品
來源:medium
編譯:一一、Andy
ICLR是機器學習社群最喜愛的會議平臺之一。如今,機器學習領域的會議已成為預印本里論文質量的標志和焦點。但即使這樣,論文的發表數量還是越來越龐大,這使得緊跟最新進展變得困難。
在Zeta Alpha,我們會密切關注自然語言處理(NLP)和信息檢索(IR)領域研究的最新進展。本著這種精神,在我們的語義搜索引擎的幫助下,我們從ICLR 2020 40篇與Transformer模型相關的論文中精選了9篇,涵蓋了架構改進,訓練創新和其他應用這三個方面。
架構改進
了解transformer模型的最近更新。
ALBERT:用于語言表征自監督學習的輕量BERT模型
Transformer模型在很大程度上已過參數化,因為這是在很多NLP任務中表現優異的一種有效方式。而ALBERT則是一個可以使BERT減少資源占用,同時又保持出色性能的很有影響力的例子。
這些優化包括:
因式分解詞向量參數:通過使用不同的隱單元大小,而不是詞向量原來大小,詞向量參數可被因式分解,讓其大小從O(Vocab × Hidden) 降低到 O(Vocab × Emb + Emb × Hidden) 。如果其中Hidden 遠大于 Emb的話,參數量的降低將是巨大的;
交叉層參數共享:共享不同transformer組件的參數,例如FFN 或注意力權重;
句子排序目標任務:作者認為下句預測在原始的BERT模型中不夠具有挑戰性,因此引入了這一新的句子層級的自監督目標。
結果如何?以比BERT-large少18倍的參數實現相當的性能和稍快的運算。
論文鏈接:
https://openreview.net/pdf\?id=H1eA7AEtvS
Reformer:一種高效的Transformer
早期Transformer模型的一大局限性在于,注意力機制的計算復雜度與序列長度成二次關系。這篇文章介紹了一些提高計算效率的技巧,使得模型能實現更長的注意力序列(長度從512上升到64K!)。
為此,該模型主要包括:
僅允許在整個模型中存儲單個激活單元副本的可逆層;
用位置敏感哈希法(LSH)近似用快速最近鄰算法計算的注意力值。這一方法用計算復雜度為O(L log L)的注意力層替代了之前計算度為O(L^2)的注意力層。
論文鏈接:
https://openreview.net/pdf\?id=rkgNKkHtvB
使用長短距離注意力模型(LSRA)的輕量級Transformer
另一個針對解決Transformer模型遠程相關性和高資源需求問題的方案是施加“移動約束”。通過對短期相關性使用卷積層,對長期相關性使用經篩選的注意力層,他們構建了一個新的效率更高的Transformer組件LSRA。
盡管結果比不上其他成熟的Transformer模型,其基本的架構設計和經過深思的研究動機使其值得關注。
論文鏈接:
https://openreview.net/pdf\?id=ByeMPlHKPH
提名獎(Honorable mentions)
Transformer-XH:
https://openreview.net/pdf\?id=r1eIiCNYwS
Depth-Adaptive Transformer:
https://openreview.net/pdf\?id=SJg7KhVKPH
Compressive Transformer:
https://openreview.net/pdf\?id=SylKikSYDH
關于訓練方法
模型如何進行訓練學習和模型架構同樣重要,所以一些新的文章在這方面有了突破。
ELECTRA:預訓練文本編碼器作為區分器而不是生成器
從BERT引入之后,掩碼語言模型(MLM)一直是預訓練任務的基礎模型。這篇文章提出了一種更低耗更快速的方法:替換字符檢測 (Replaced Token Detection)。
其中心思想十分簡單:不是讓模型猜測被掩蓋的字符,而是需要其區分哪些字符已被一個小的生成網絡替換,該生成網絡將產生合理但錯誤的token。作者聲稱這個任務更具有樣本有效性,因為該任務是在整個序列上訓練而不僅僅是被掩蓋的字符上。如果結果證明它們很容易被復現,那這一方法很可能成為無監督學習的新標準。
論文鏈接:
https://openreview.net/pdf\?id=r1xMH1BtvB
TabFact:一個基于表的事實驗證大規模數據集
現代Transformer 模型縮小了機器和人類表現上的差距,很多經典的NLP數據集也隨著被廢棄,這意味著需要創造出更多新的有挑戰性的基準測試來激勵前進。因此,一個新的數據集被提出,用于解決對基于事實信息的自然語言表達進行建模的問題。
這一數據集用包括來自維基百科的1萬6千個表格和來自人工標注為ENTAILMENT或者REFUTED的11萬8千個標簽來表示事實數據。目前基模型的表現還很一般,所以現在如何創新性地解決這一問題仍令人激動。
論文鏈接:
https://openreview.net/pdf\?id=rkeJRhNYDH
經過預訓練的百科全書:弱監督知識預訓練語言模型
這篇文章用更結構化的數據:維基百科和它其中實體來研究自監督訓練的能力,而不是應用普通的MLM模型。他們用其他相似類型的實體(如ELECTRA)替換了文本中的實體,模型學習通過上下文來識別這種被替換的句子。通過這種方法,模型被強制學習了現實世界實體的信息,以及它們之間的關系。
這一任務與經典的MLM在預訓練時的結合,其能夠大大提高Zero-shot實現以及以實體為中心的任務(例如問答和實體輸入)的表現。
論文鏈接:
https://openreview.net/pdf\?id=BJlzm64tDH
提名獎(Honorable mentions):
A Mutual Information Maximization Perspective of Language Representation Learning:
https://openreview.net/pdf\?id=rkxoh24FPH
Improving Neural Language Generation with Spectrum Control:
https://openreview.net/pdf\?id=ByxY8CNtvr
Large Batch Optimization for Deep Learning: Training BERT in 76 minutes:
https://openreview.net/pdf\?id=Syx4wnEtvH
其他應用
Transformer模型不僅僅使用于語言建模中,有些其他的工作也巧妙地應用了這一模型的能力來解決相關問題。
BERTScore:用BERT評估文本生成
在定義寬松的環境(如核心文本生成)中客觀地評價質量具有固有的挑戰性。在語言中,BLUE評分,作為一種與人類對于文本生成任務(如翻譯或問題回答)的判斷能夠較好吻合的文本相似度代理,被廣泛使用。但它并不完美。
這一工作解決了這一問題,展示了一個用于序列配對的基于Bert的評分功能如何被設計用于文本生成評估,并能更好地與人類評估吻合。這一過程非常直觀,并需要任何精調:只需要經過預訓練的上下文嵌入,cosine相似度和基于頻率的權重。
盡管在解釋性上有些不足,這種經過學習的評分是否會成為一種新的標準呢?這還要交給時間來判斷了。
論文鏈接:
https://openreview.net/pdf\?id=SkeHuCVFDr
用于基于向量大規模檢索的預訓練任務
考慮到像BM25這樣的基準方法的強大和難以擊敗,信息檢索領域已經落后于神經革命。
現在大多數神經增強的SOTA方法需要兩個關鍵步驟:
基于類似BM25的算法對全文檔數據集快速過濾;
通過神經網絡對query和一個較小的文檔子集進行處理實現再排序。
這種方法有很多局限性,第一步忽略掉的文檔將不會再被處理,而且在推斷階段完全處理query和文檔對的計算成本會嚴重限制其在現實場景中的應用。
這篇文章探索了只通過預計算好文檔表示的向量相似度分數來進行推斷的問題,使得大規模的端到端的基于Transformer模型的檢索成為可能。
其中關鍵在于具有段落級自監督任務的預訓練,而token級的MLM對于這一任務的作用則幾乎可忽略不計。在結果部分,他們展示了即使在相對缺乏監督的訓練集下,這一方法也在問答任務中擊敗BM25。
論文鏈接:
https://openreview.net/pdf\?id=rkg-mA4FDr
VL-BERT:通用視覺語言表征的預訓練
預訓練和精整框架如何應用于通用語言和可視化表示的結合學習中?我們找到一個很好的案例:Visual-Linguistic BERT 以Transformer架構為主干,與R-CNNs相結合。盡管這不是同類模型中的首個,但它是對現存模型的更新與提高,并且將Visual Commonsense Reasoning(VCR)的基準提高到一個新的高度。
這一預訓練步驟依賴兩大任務:
具有視覺線索的掩蓋語言建模:和原始的MLM模型相似,但加入了被添加說明文字的圖片區域的特征;
具有語言線索的掩蓋興趣區域分類:在一定概率下,圖片的一些區域被掩蓋,目標是在給出語言信息的情況下預測這些被掩蓋區域的類型。
論文鏈接:
https://openreview.net/pdf\?id=SygXPaEYvH
福利:自注意力與卷積層的關系
這一非傳統的文章強有力地分析了注意力機制和卷積網絡的共同點。有趣的是,他們找到了比大家先前預想的更多的重合點:他們的證據表明,注意力層通常會使用與CNN相似的像素-網格模式。
以計算機視覺為例,加上詳細的數學推導,他們發現Transformer架構或許是CNN的一種推廣,因為他們經常學習與CNN相同的模式,甚至因為能夠同時學習局部和全局信息而展現出優勢。
論文鏈接:
https://openreview.net/pdf\?id=HJlnC1rKPB
提名獎(Honorable mentions):
Deep Learning For Symbolic Mathematics:
https://openreview.net/pdf\?id=S1eZYeHFDS
Logic and the 2-Simplicial Transformer (for Deep RL)
可
能
喜
歡
巨省顯存的重計算技巧在TF、Keras中的正確打開方式
算法工程師的效率神器——vim篇
數據缺失、混亂、重復怎么辦?最全數據清洗指南讓你所向披靡
硬核推導Google AdaFactor:一個省顯存的寶藏優化器
賣萌屋上線Arxiv論文速刷神器,直達學術最前沿!
13個offer,8家SSP,談談我的秋招經驗
BERT重計算:用22.5%的訓練時間節省5倍的顯存開銷(附代碼)
知乎搜索框背后的Query理解和語義召回技術
深度神經網絡為何會有災難性遺忘?如何進行有效的持續學習?
模型訓練太慢?顯存不夠用?混合精度訓練了解一下
夕小瑤的賣萌屋
_
關注&星標小夕,帶你解鎖AI秘籍
訂閱號主頁下方「撩一下」有驚喜哦
總結
以上是生活随笔為你收集整理的在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACL20 | 让笨重的BERT问答匹配
- 下一篇: NYU Google: 知识蒸馏无处不