【学术相关】2020年AI领域有哪些让人惊艳的研究?
?煉丹筆記干貨?
時晴,煉丹小仙女
???前段時間,Google Brain科學家Barret Zoph表示,他們設計了一個名叫「Switch Transformer」的簡化稀疏架構,將語言模型的參數量擴展至 1.6 萬億同時帶來了諸多評測上的提升。
????2020年除了Google Brain帶來的這篇驚艷的Switch Transformers,當然還有其他的一些讓人眼前一亮的研究,本文為大家節選了自然語言處理、遷移學習等領域的一些研究成果。
Switch Transformer
Switch Transformers 模型的創新:
1)Switch Transformer在網絡結構上最大的改進是Sparse routing的稀疏結構,相比于OpenAI在GPT-3里所使用的Sparse Attention,需要用到稀疏算子而很難發揮GPU、TPU硬件性能的問題。Switch Transformer不需要稀疏算子,可以更好的適應GPU、TPU等硬件。
2)Switch Transformer雖然有1.6萬億參數,但通過Sparse routing的改進,每輪迭代只會觸發部分Expert的計算,而每個token也只會路由給一個Expert,所以對算力的需求并沒有隨著參數量的增加而大幅增長,使得這個模型更加容易訓練。
3)數據并行、模型并行、Expert并行的并行策略設計,在MoE網絡結構上能夠獲得更低的通信開銷,提高并行的效率。
有興趣的可以讀一下《Google Brain:從不廢話,直接扔大》一文。
Image Transformers
????雖然Transformer在自然語言處理方面取得了巨大的成功,但在計算機視覺領域還是不太行的樣子,卷積神經網絡(CNNs)仍然在CV領域占據著主導地位。盡管在理論上,Transformer不如RNN牛B,但當數據規模足夠大時,與 CNN 和 RNN 相比,Transformer 的歸納偏置更少,效果上也開始超越其他模型的表現。
????Image GPT (Chen et al., 2020)、Vision Transformer (ViT,Dosovitskiy et al., 2020)、Image Processing Transformer(IPT,Chen et al., 2020)各放異彩,有的采用GPT-2思想直接從像素進行預訓練,有的通過對比損失預訓練的方式實現了新的SOTA,有的將圖像重塑為被視為「token」。
????未來,Transformer在計算機視覺中可能會變得越來越有意思。Transformer將特別適用于有足夠算力和數據的預訓練場景。在數據規模較小時,CNNs將仍然是一種可行的方法和一個強有力的Baseline。
Few-shot Learning?
????少樣本學習可以將一個模型應用于各種場景的各種任務,但每次根據新任務進行全局的模型更新是奢侈的,最好的方式是進行模型的局部更新,2020年在少樣本學習方面使用Adapter(Houlsby et al., 2019、Pfeiffer et al., 2020a、üstün et al., 2020),或者使用加入稀疏參數向量(Guo et al., 2020),以及僅修改偏差值(Ben-Zaken et al., 2020)等方法。
Contrastive Learning
????
????對比學習(Contrastive Learning)這類方法則是通過將數據分別與正例樣本和負例樣本在特征空間進行對比,來學習樣本的特征表示。Contrastive Methods主要的難點在于如何構造正負樣本。
??? 2020年進一步改善了這種通用框架,SimCLR(Chen et al., 2020)、SwAV(Caron et al., 2020)、Momentum Contrast(He et al., 2020)等方法,有的定義了增強型實例的對比損失,有的試圖確保大量且一致的樣本對集合,有的利用在線聚類等。
????同時,Zhao et al. (2020)發現數據增強在對比學習中是至關重要的。對比學習與 masked語言建模相結合的方式,能讓模型具有更豐富、更魯棒的特征表征,同時它可以幫助解決模型異常值以及罕見的句法和語義現象帶來的問題,。
Multilinguality
????多語言模型在2020年的諸多研究中也頗有亮點,包括多語言數據集:
SQuAD: XQuAD (Artetxe et al., 2020), MLQA (Lewis et al., 2020), FQuAD (d'Hoffschmidt et al., 2020)
Natural Questions: TyDiQA (Clark et al., 2020), MKQA (Longpre et al., 2020)
MNLI: OCNLI (Hu et al., 2020), FarsTail (Amirkhani et al., 2020)
the CoNLL-09 dataset: X-SRL (Daza and Frank, 2020)
the CNN/Daily Mail dataset: MLSUM (Scialom et al., 2020)
????BERT模型的諸多迭代創新中,有包含100多種語言的強大模型,包括AraBERT (Antoun et al., 2020)、IndoBERT (Wilie et al., 2020)、XML-R (Conneau et al., 2020)、RemBERT (Chung et al., 2020)、InfoXLM (Chi et al., 2020)等。
????此外,《The State and Fate of Linguistic Diversity(Joshi et al., 2020)》一文,強調了使用英語之外語言的緊迫性。《Decolonising Speech and Language Technology (Bird, 2020)》一文指出了不要將語言社區及數據視為商品。
Reinforcement Learning
????Agent57(Badia et al., 2020)首次在 57 款 Atari 游戲上超過人類,同時也為深度強化學習領域建立了baseline。
????在游戲方面,強化學習的另一個里程碑是 Schrittwieser 等人開發的 MuZero,它能預測環境各個方面,而環境對精確的規劃非常重要。在沒有任何游戲動態知識的情況下,MuZero 在雅達利上達到了 SOTA 性能,在圍棋、國際象棋和日本象棋上表現也很出色。
? ? 對強化學習有興趣的同學可以看一下煉丹筆記出品的《從零單排強化學習》系列。
—END—
參考內容
1、Google Brain:從不廢話,直接扔大
2、https://ruder.io/research-highlights-2020/
總結
以上是生活随笔為你收集整理的【学术相关】2020年AI领域有哪些让人惊艳的研究?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础】Python机器学习入门
- 下一篇: win7更改适配器设置没有本地连接解决方