當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

也来盘点一些最近的非Transformer工作

發(fā)布時(shí)間：2024/10/8 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了也来盘点一些最近的非Transformer工作小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜蘇劍林

單位｜追一科技

研究方向｜NLP、神經(jīng)網(wǎng)絡(luò)

大家最近應(yīng)該多多少少都被各種 MLP 相關(guān)的工作“席卷眼球”了。以 Google 為主的多個(gè)研究機(jī)構(gòu)“奇招頻出”，試圖從多個(gè)維度“打擊”Transformer 模型，其中勢頭最猛的就是號(hào)稱是純 MLP 的一系列模型了，讓人似乎有種“MLP is all you need”時(shí)代到來的感覺。

這一頓頓讓人眼花繚亂的操作背后，究竟是大道至簡下的“返璞歸真”，還是江郎才盡后的“冷飯重炒”？讓我們也來跟著這股熱潮，一起來盤點(diǎn)一些最近的相關(guān)工作。

五月人倍忙

怪事天天有，五月特別多。這個(gè)月以來，各大機(jī)構(gòu)似乎相約好了一樣，各種非 Transformer 的工作紛紛亮相，仿佛“忽如一夜春風(fēng)來，千樹萬樹梨花開”。單就筆者在 Arxiv 上刷到的相關(guān)論文，就已經(jīng)多達(dá)七篇（一個(gè)月還沒過完，七篇方向極其一致的論文），涵蓋了 NLP 和 CV 等多個(gè)任務(wù)，真的讓人應(yīng)接不暇：

[1] MLP-Mixer: An all-MLP Architecture for Vision - Google Research

[2] Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks - 清華大學(xué)

[3] Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet - 牛津大學(xué)

[4] Are Pre-trained Convolutions Better than Pre-trained Transformers? - Google Research

[5] ResMLP: Feedforward networks for image classification with data-efficient training - Facebook AI

[6] FNet: Mixing Tokens with Fourier Transforms - Google Research

[7] Pay Attention to MLPs - Google Research

以上論文是按照出現(xiàn)在 arixv 上的時(shí)間排序的。可以看到主力軍依舊是 Google 大佬。想當(dāng)年一手促成了“Attention is all you need”趨勢的也是 Google，現(xiàn)在“重拳出擊”Transformer 的還是 Google，Google 大佬真可謂一直挖坑不斷啊。

把酒話桑麻

那么這系列工作究竟能帶來什么啟發(fā)呢？我們要不要趕緊跟上這系列工作呢？在這部分內(nèi)容中，我們就來簡要地梳理一下上述幾篇論文，看看它們是何方神圣，是否有可能造成新一股模型潮流？

2.1 Synthesizer

要解讀上述 MLP 相關(guān)的工作，就不得不提到去年五月 Google 發(fā)表在《Synthesizer: Rethinking Self-Attention in Transformer Models》[1] 的 Synthesizer。而事實(shí)上，如果你已經(jīng)了解了 Synthesizer，那么上面列表中的好幾篇論文都可以一筆帶過了。

在之前的文章 Google 新作 Synthesizer：我們還不夠了解自注意力中，我們已經(jīng)對(duì) Synthesizer 做了簡單的解讀。撇開縮放因子不說，那么 Attention 的運(yùn)算可以分解為：

其中是輸入序列的變換，這個(gè)了解 Self Attention 的讀者應(yīng)該都清楚，不再詳寫。Synthesizer 則是對(duì)幾種的新算法做了實(shí)驗(yàn)，其中最讓人深刻的一種名為 Random，就是將整個(gè) 當(dāng)作一個(gè)參數(shù)矩陣（隨機(jī)初始化后更新或者不更新）。

▲ Synthesizer的“預(yù)訓(xùn)練+微調(diào)”實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)的baseline是T5，其中“R”即為Random模式，相當(dāng)于MLP。

在 Random 的情況下，Attention 矩陣不再是隨樣本變化的了，也就是所有樣本公用同一個(gè) Attention 矩陣，但是它依然能取得不錯(cuò)的效果，這在當(dāng)時(shí)確實(shí)對(duì)大家對(duì) Attention 的固有理解造成了強(qiáng)烈沖擊。Synthesizer 的實(shí)驗(yàn)相當(dāng)豐富，包括“機(jī)器翻譯”、“自動(dòng)摘要”、“對(duì)話生成”、“預(yù)訓(xùn)練+微調(diào)”等，可以說，上面列羅的多數(shù)論文，實(shí)驗(yàn)都沒有 Synthesizer 豐富。

2.2 MLP-Mixer

論文標(biāo)題：

MLP-Mixer: An all-MLP Architecture for Vision

論文鏈接：

https://arxiv.org/abs/2105.01601

Synthesizer 也許沒想到，一年之后，它換了個(gè)名字，然后火起來了。

論文《MLP-Mixer: An all-MLP Architecture for Vision》所提出來的 MLP-Mxier，其實(shí)就是 Synthesizer 的 Random 模式并去掉了 softmax 激活，也就是說，它將設(shè)為可訓(xùn)練的參數(shù)矩陣，然后直接讓。模型就這樣已經(jīng)介紹完了，除此之外的區(qū)別就是 MLP-Mxier 做 CV 任務(wù)而 Synthesizer 做 NLP 任務(wù)而已。

▲ MLP-Mixer的部分實(shí)驗(yàn)結(jié)果

對(duì)了，為啥這模型叫 MLP-Mxier 呢，因?yàn)樽髡甙堰@種直接可訓(xùn)練的 Attention 模式起了個(gè)名字叫做“token-mixing MLP”，把原來的 FFN 改叫做“channel-mixing MLP”（以前叫做 Position-wise FC），不管叫啥，反正就是號(hào)稱只是 MLP，所以模型也叫做 MLP-Mxier。

而事實(shí)上，筆者認(rèn)為這個(gè)更標(biāo)準(zhǔn)的叫法是窗口為 1 的一維卷積，但不管是這篇論文還是之前的《Attention Is All You Need》[2] ，都是寧愿把這些常規(guī)操作自己另起個(gè)名字，也要選擇性地減少甚至無視與卷積的聯(lián)系，可謂是為了“A Good Title Is All You Need”而煞費(fèi)苦心了。

其實(shí)這一點(diǎn)也遭到了 LeCun 的批評(píng)，如果真的是標(biāo)準(zhǔn)的 MLP，那應(yīng)該要將輸入展平為一個(gè)一維向量，然后再接變換矩陣。

2.3 External Attention

論文標(biāo)題：

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

論文鏈接：

https://arxiv.org/abs/2105.02358

從類比的角度看，Synthesizer 的 Random 模式或者 MLP-Mxier，相當(dāng)于將Attention中的和都設(shè)為參數(shù)矩陣了，而《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》所提出的 External Attention，則是把和設(shè)為（固定大小的）參數(shù)矩陣了，實(shí)驗(yàn)任務(wù)同樣是 CV 的。

本來這也沒什么，畢竟深度學(xué)習(xí)就是效果為王，效果好了就能成文。但是個(gè)人認(rèn)為 External Attention 很多說法就禁不住推敲的。

首先，它把自己稱為“兩個(gè)線性層”，刻意淡化它跟 Attention 的聯(lián)系（說出它是 Attention 的特例很丟人？）；然后它又說“通過引入兩個(gè)外部記憶單元（也就是設(shè)為參數(shù)的和），隱式地學(xué)習(xí)了整個(gè)數(shù)據(jù)集的特征”，這種說法也不能算錯(cuò)，然而其實(shí)任意模型的任意參數(shù)都可以這樣解釋，這并不是 External Attention 的特性；

還有它說能實(shí)現(xiàn)線性的復(fù)雜度，那得固定的長度，這種情況下其實(shí)應(yīng)該跟也同樣是線性復(fù)雜的 LinFormer 比比才更有說服力（論文比了 Performer，但是 Performer 的降低復(fù)雜度思路是不一樣的，LinFormer 更有可比性）。

拋開這些文字上的不說，External Attention 的工作機(jī)制似乎有點(diǎn)迷。不難想到 External Attention 對(duì)每個(gè)特征的編碼是孤立的，如果換到 NLP 來說，那就是說每個(gè)詞都獨(dú)立編碼的，根本不與上下文產(chǎn)生聯(lián)系，所以肯定是不 work 的，那為什么在 CV 中會(huì) work 呢？

2.4 Stack of FFN

論文標(biāo)題：

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

論文鏈接：

https://arxiv.org/abs/2105.02723

至于論文《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》，其實(shí)跟 MLP-Mixer 是高度重合的，不過它寫起來就實(shí)在多了。它就是將輸入過一個(gè)常規(guī)的 FFN，然后將輸出轉(zhuǎn)置，再過一個(gè) FFN，最后轉(zhuǎn)置回來，這樣如果本身就熟悉 Transformer 的話，我們很快就清楚它做了啥。

這篇論文本身就很短，一共只有 4 頁，還包括 1 頁代碼和半頁參考文獻(xiàn)，正文其實(shí)就只有 2.5 頁，更像是一個(gè)簡報(bào)。也許作者本身也想在這個(gè)方面深挖一下，結(jié)果 Google 的 MLP-Mixer 先出來了，那么做下去也沒意思了，遂草草完事發(fā)出。（這部分故事純粹是筆者自己的猜測。）

2.5 Pre-trained CNN

論文標(biāo)題：

Are Pre-trained Convolutions Better than Pre-trained Transformers?

收錄會(huì)議：

ACL 2021

論文鏈接：

https://arxiv.org/abs/2105.03322

事實(shí)上，CNN 才是最早嘗試（在 Seq2Seq 任務(wù)中）取代 RNN 的模型，Facebook的《Convolutional Sequence to Sequence Learning》[3] 其實(shí)更早發(fā)表，只不過很快就被 Google 的《Attention Is All You Need》[2] 搶了風(fēng)頭，后來 GPT、BERT 等模型發(fā)布之后，Transformer 類模型就成了當(dāng)前主流，CNN 很少被深入研究了。

論文《Are Pre-trained Convolutions Better than Pre-trained Transformers?》則幫助我們驗(yàn)證了“CNN+預(yù)訓(xùn)練”的有效性。論文結(jié)果顯示，不管是直接用下游數(shù)據(jù)監(jiān)督訓(xùn)練，還是先預(yù)訓(xùn)練然后微調(diào)，基于膨脹卷積或動(dòng)態(tài)卷積的 CNN 模型都略優(yōu)于 Transformer 模型，并且在速度上 CNN 模型還更加快。對(duì)了，這篇論文已經(jīng)中了 ACL 2021，所以這篇論文的成文其實(shí)更早，只不過這個(gè)月才放出來而已。

▲ 不管有無預(yù)訓(xùn)練，CNN都體現(xiàn)出了自己的優(yōu)勢

這篇論文給我們的主要啟發(fā)是：預(yù)訓(xùn)練改進(jìn)與模型改進(jìn)不應(yīng)該混為一談，預(yù)訓(xùn)練技術(shù)本身往往能給各種模型都帶來提升，不應(yīng)該一提到預(yù)訓(xùn)練就想到 Transformer，也不應(yīng)該只把預(yù)訓(xùn)練跟 Transformer 結(jié)合。事實(shí)上，筆者之前也比較喜歡 CNN，曾通過“膨脹門卷積（DGCNN）”的設(shè)計(jì)在多個(gè)任務(wù)上取得不錯(cuò)的效果，而這篇論文則再次肯定了 CNN 的價(jià)值。不過盡管如此，筆者可能依然不會(huì)投入主要精力轉(zhuǎn)向 CNN 的研究。

首先，理論上來說，CNN 就無法捕捉足夠遠(yuǎn)的長程依賴，這是根本缺陷，雖然通過膨脹卷積等方式，可以快速增大 CNN 的感受野，但也只是比較大，不是 Transformer 理論上的一步到位；其次，如果單純看提高效率角度，Transformer 本身也有很多優(yōu)化空間，如果只是為了執(zhí)行效率而轉(zhuǎn)向 CNN，那這個(gè)理由似乎不那么有說服力；還有，Transformer 的的復(fù)雜度本身也帶來更多的折騰空間（比如像 UniLM），可以玩出更多的花樣（比如像 K-BERT）。

總的來說，我們不能否定 CNN 的價(jià)值，但如果當(dāng)前已經(jīng)比較專注 Transformer 了，那么就沒必要分出太多精力去轉(zhuǎn)向 CNN 了。

2.6 ResMLP

論文標(biāo)題：

ResMLP: Feedforward networks for image classification with data-efficient training

論文鏈接：

https://arxiv.org/abs/2105.03404

至于 Facebook 在《ResMLP: Feedforward networks for image classification with data-efficient training》提出的 ResMLP，跟前述的 MLP-Mixer 和 Stack of FFN 也沒有本質(zhì)區(qū)別，其文字描述也跟 Stack of FFN 很相似，忽略細(xì)微的細(xì)節(jié)差異，甚至可以認(rèn)為它們?nèi)齻€(gè)就是同一個(gè)模型。最后，ResMLP 的實(shí)驗(yàn)任務(wù)同樣是 CV 的。

2.7 FNet

論文標(biāo)題：

FNet: Mixing Tokens with Fourier Transforms

論文鏈接：

https://arxiv.org/abs/2105.03824

就筆者看來，《FNet: Mixing Tokens with Fourier Transforms》所提出的 FNet，是列表的七篇論文中最有意思的一篇。某種意義上來說，FNet 也是 MLP-Mixer 的一個(gè)特例，但它是一個(gè)非常有意思的特例：MLP-Mixer 的注意力矩陣是直接參數(shù)優(yōu)化而來的，FNet 的參數(shù)矩陣是直接通過傅立葉變換得到的！所以，FNet 的“注意力層”是沒有任何優(yōu)化參數(shù)的！

其實(shí)我們也可以從注意力的角度來理解 FNet。拋開歸一化因子不看，那么注意力運(yùn)算大致可以寫為：

這里的本來是的矩陣，FNet 說：可以換成矩陣：

是的，你沒看錯(cuò)，它就是要將它粗暴地?fù)Q成組成的矩陣。當(dāng)然，這樣一來越到后面就指數(shù)爆炸了。為了避免這種情況，FNet 就改為：

也就是搞成虛指數(shù)就不會(huì)爆炸了！就這么粗暴，這就得到了基于傅立葉變換的 FNet。原論文對(duì)序列長度和特征維度兩個(gè)方向都做了傅立葉變換，然后只保留實(shí)數(shù)部分，就用這個(gè)運(yùn)算取代了自注意力。對(duì)于傅立葉變換的實(shí)現(xiàn)，我們有稱之為“快速傅立葉變換（FFT）”的算法，效率是，所以 FNet 也能有效處理長序列。

FNet 的部分效果如下表。其實(shí)從預(yù)訓(xùn)練和下游任務(wù)的效果上來看，FNet 并沒有什么優(yōu)勢，不過它在 Long-Range Arena [4]（一個(gè)測試模型長程能力的評(píng)測榜單）上的效果倒是不錯(cuò)。

▲?FNet的“預(yù)訓(xùn)練+微調(diào)”實(shí)驗(yàn)結(jié)果

▲ FNet的Long-Range Arena實(shí)驗(yàn)結(jié)果

當(dāng)然，FNet 這么粗暴的做法能行本來就已經(jīng)是個(gè)奇跡了，它給我們帶來的最大沖擊無疑是：就這樣都行？傅立葉變換為什么能行？筆者也不知道答案。網(wǎng)上有些評(píng)論說，這說明了注意力機(jī)制其實(shí)就是一種坐標(biāo)基的變換，而傅立葉變換也是一種基的變換，兩者的作用是類似的。

這個(gè)說法確實(shí)有點(diǎn)本質(zhì)的感覺，在 ICLR 2021 中也有篇論文《Is Attention Better Than Matrix Decomposition?》[5] 用 SVD 代替 Attention 也能取得不錯(cuò)的效果，這說明基變換的說法確實(shí)存在（SVD 也是一種基變換），但是基變換的同時(shí)如何保持時(shí)序性、哪種基變換更適合，這些問題完全沒有頭緒。

2.8 gMLP / aMLP

論文標(biāo)題：

Pay Attention to MLPs

論文鏈接：

https://arxiv.org/abs/2105.08050

最后《Pay Attention to MLPs》所給我們帶來的 gMLP、aMLP 是比較常規(guī)的新結(jié)構(gòu)探索工作，算是 MLP-Mixer 的增強(qiáng)版。gMLP 的 g 是 “gate” 的意思，簡單來說 gMLP 就是將 MLP-Mixer 跟門控機(jī)制結(jié)合起來，而 aMLP 的 a 是 “attention” 的意思，它將 attention 與 gMLP 結(jié)合起來。

具體來說，gMLP 大致是如下運(yùn)算：

簡單來說，就是將收入沿著特征維度分為兩半，然后將其中一半傳入 MLP-Mixer，作為另一半的 gate。而 aMLP 則是將 MLP-Mixer 和一個(gè)簡單的單頭 Self Attention 結(jié)合來作為 gate：

論文做的實(shí)驗(yàn)比較全面，包括 CV 和 NLP 的。從論文所報(bào)告的效果來看，gMLP 略差于標(biāo)準(zhǔn)的 Self Attention，而 aMLP 則是普遍優(yōu)于 Self Attention，這進(jìn)一步肯定了門控機(jī)制的價(jià)值。只不過不管是 gMLP 還是 aMLP，人工堆砌的味道太重了，要水一篇 paper 還可以，但個(gè)人認(rèn)為沒有給模型的發(fā)展方向帶來什么新的啟發(fā)。

▲ gMLP,aMLP的NLP部分實(shí)驗(yàn)結(jié)果

前路在何方

通過以上閱讀，我們可以知道，MLP-Mixer、Stack of FFN、ResMLP 這三個(gè)模型，事實(shí)上可以看成是去年的 Synthesizer 的一個(gè)特例，甚至從技術(shù)上來說，它們還不如 Synthesizer 的內(nèi)容豐富，因此真算不上什么有意思的工作；至于它的改進(jìn)版 gMLP / aMLP，則是非常常規(guī)的結(jié)構(gòu)煉丹工作，只要算力足夠我們都可以去做，所以也確實(shí)沒什么意思；External Attention 號(hào)稱兩個(gè)線性層，事實(shí)上就是Attention的變式，其生效機(jī)制和實(shí)驗(yàn)對(duì)比也不夠明朗；比較有意思的就是 CNN 預(yù)訓(xùn)練和 FNet 這兩個(gè)工作了，一個(gè)讓我們解耦了“預(yù)訓(xùn)練改進(jìn)”和“模型改進(jìn)”兩個(gè)概念，一個(gè)提出的傅立葉變換也有效給我們帶來了較大的思想沖擊。

整體而言，這些工作離成熟還遠(yuǎn)得很，最多是初步驗(yàn)證了有效性，連優(yōu)雅也說不上。比如，除了 FNet，這些所謂的“all in MLP”的模型，都沒有辦法比較優(yōu)雅處理變長輸入，像 MLP-Mixer、Stack of FFN、ResMLP 純粹在（固定大小的）圖像上實(shí)驗(yàn)，所以不用考慮這個(gè)問題，像 Synthesizer / gMLP / aMLP 雖然做了 NLP 的實(shí)驗(yàn)，但看上去都是強(qiáng)行截?cái)嗟?#xff0c;算不上漂亮。所以，這系列工作一定程度上是開拓了新的思路，但其實(shí)帶來了更多有待解答的問題。

那么我們要不要跟呢？個(gè)人認(rèn)為沒必要投入多少精力進(jìn)去，平時(shí)大致關(guān)注一下就行了。拋開前面說的優(yōu)雅性問題不說，這些工作的實(shí)用性本身就值得商榷。像將 Attention 換成 MLP 的改進(jìn)，最大的優(yōu)點(diǎn)無非就是提速，沒錯(cuò)，是會(huì)快一點(diǎn)，但理論復(fù)雜度還是，這說明其實(shí)沒有本質(zhì)改進(jìn)，況且提速的同時(shí)通常還會(huì)降低一點(diǎn)性能。

如果單從“提速并降低一點(diǎn)性能”的追求來看，Transformer 可做的工作也非常多（最直接的就是減少一兩層），沒必要換成 MLP，而換成 MLP 探索自由度降低了不少。當(dāng)然，從“拓荒”的學(xué)術(shù)角度來看，多角度嘗試各種新模型是有意義的，但這也不宜摻入過多的人造因素在里邊，不然就變成了一個(gè)在結(jié)構(gòu)上過擬合任務(wù)的過程了，難登大雅之堂。

此外，對(duì)于 NLP 來說，我們可能比較關(guān)心的是“預(yù)訓(xùn)練+微調(diào)”這一塊的性能，而很遺憾，從 Synthesizer 開始的一系列 NLP 實(shí)驗(yàn)表明，將 Attention 換成 MLP 后的模型也許在某個(gè)任務(wù)上能取得有競爭性的結(jié)果，但是其遷移性往往不好，也就是說可能單看預(yù)訓(xùn)練效果還不錯(cuò)，但是“預(yù)訓(xùn)練+微調(diào)”多數(shù)就比不上 Transformer 了。這也不難理解，因?yàn)樗鼈儼?Attention 矩陣參數(shù)化，那么該矩陣更有可能跟具體任務(wù)強(qiáng)相關(guān)了，不像 Transformer 那樣自適應(yīng)生成的 Attention 矩陣那樣具有更好的適應(yīng)能力。

曲終人散時(shí)

本文盤點(diǎn)了最近的一些“非主流”工作，主要是通過以 MLP 為主的非 Transformer 結(jié)構(gòu)來取代 Transformer 并獲得了有競爭力的結(jié)果。總的來說，這些工作看起來形形色色，但都有跡可循，有“新瓶裝舊酒”之感，能給人新啟示的并不多。

全文僅乃筆者的閉門造車之言，僅代表筆者的個(gè)人觀點(diǎn)，如有不當(dāng)之處，還請(qǐng)讀者海涵斧正。

參考文獻(xiàn)

[1] https://arxiv.org/abs/2005.00743

[2] https://arxiv.org/abs/1706.03762

[3] https://arxiv.org/abs/1705.03122

[4] https://arxiv.org/abs/2011.04006

[5] https://openreview.net/forum?id=1FvkSpWosOl

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的也来盘点一些最近的非Transformer工作的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： u盘插电脑上怎么播放不了怎么回事啊 U盘
下一篇：磁盘损坏怎么办磁盘损坏解决方案

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

也来盘点一些最近的非Transformer工作

總結(jié)