卖萌屋新闻联播栏目,倾情上线~
編 | 小軼
感謝提供本期內容的 iven、ZenMoore、 jxyxiangyu、付瑤
今天這篇推文是賣萌屋全新的原創系列———暫且取名為“賣萌屋新聞聯播”節目。賣萌屋的作者、小編日常都會在團隊群里分享各種最新發現的實用資源、有意思的學術工作。小伙伴們在互相分享的過程中都受益匪淺。我們也非常希望能將其中一些有價值的內容分享給各位小屋的讀者們。
區別于過往以介紹單篇工作為主的推送形式,“新聞聯播”欄目會將最新鮮的實用信息匯集在一起,以言簡意賅的短新聞形式呈現給大家。本文也是小屋的第一次嘗試,還請各位多多留言反饋。
有用的資源
EMNLP、NIPS 論文放出
EMNLP 2021 的 paper 都官方放出啦。之前只出了 accepted paper 的標題列表,沒給原文 pdf。大家之前相中的 paper 們,現在都可以去盡情翻牌啦~
鏈接:
https://aclanthology.org/events/emnlp-2021/
NIPS 2021 的 accepted paper 列表也公布了。
鏈接:
https://neurips.cc/Conferences/2021/AcceptedPapersInitial
吳恩達首屆 Data-centric AI 比賽獲勝方案
小屋在今年 6 月的時候有向大家推薦過吳恩達老師發起的 Data-Centric AI 競賽。區別于傳統的 Model-Centric 比賽,這項比賽不是給定數據集,讓參賽者造更好的模型;而是給定模型,要求參賽者通過不斷改進數據以獲得更好的模型效果。這種比賽設計其實更加符合真實工程實踐中的需求 —— SOTA 模型往往大同小異,真正重要的反倒是數據。
現在該比賽已經結束,獲勝隊伍們都紛紛將自己的比賽方案整理成文,發布在了 DeepLearning AI 網站上。
選手博文鏈接:
https://www.deeplearning.ai/blog/
比賽主頁鏈接:
https://github.com/hazyresearch/data-centric-ai/blob/main/README.md
好玩的demo
Hugging Face 上線新工具:上傳圖片一鍵生成二次元圖片
Hugging Face 家前些天上線了一個新玩具,可以將上傳的照片/圖片一鍵變為二次元風畫像。emmm雖然其實某圖秀秀的美顏軟件已經推出類似功能很久了,但效果跟 Hugging Face 家完全不能比... 大家可以上去玩玩,不過現在要排隊了,排隊時長 30 分鐘起步:)
demo 鏈接:
https://huggingface.co/spaces/akhaliq/AnimeGANv2
學術前沿
CMU & Stanford 聯合推出多模態基準測試平臺 MultiBench
CMU、Stanford 等大學近日聯合發布了一個最新的多模態 Benchmark,MultiBench。是目前為止最為全面的測試多模態方法的基準測試平臺。共覆蓋 15 個數據集、20個預測任務,并提供了超過20種核心多模態方法的標準實現。測試代碼完全模塊化,非常便于快速實驗。做多模態的同學可以關注一下。
項目主頁:
https://cmu-multicomp-lab.github.io/multibench/
論文鏈接:
https://arxiv.org/pdf/2107.07502.pdf
谷歌發布大規模情感分類數據集 GoEmotions
Google 最新發布了一個情感分類數據集。此前情感分類的粒度其實非常粗糙,時常只有正/負向兩類情感,最多的也不過分到五六種。而且還有一個問題就是,一段文本往往只認為有一種情感——這個假設顯然也是不對的。谷歌爸爸這次一鼓作氣,設置了 58 種細粒度情感,標注了 58k 的 Reddit 評論。推出了最新數據集 GoEmotions。
UW、Facebook、Allen AI 聯合推出語言模型元學習框架 MetaUCL,142 個數據集上驗證有效
一個 Few-shot 場景下的的元訓練框架,在包括分類、QA、NLI 等等 142 個 NLP 數據集上進行實驗,皆優于基準模型。幾個基準模型都是非常 competitive 的方法,包括前段時期大火的 instruction prompting。
論文鏈接:
https://arxiv.org/pdf/2110.15943.pdf
項目地址:
https://github.com/facebookresearch/metaicl
建語料庫什么的...讓 GPT-3 來辦就好啦!
最后推薦一篇非常有意思的論文。以往,我們在某個任務上訓練模型的過程是:人類知識 → 手動標注語料庫 → 訓練模型。這篇文章則探索了另一個思路:無標注語料 → 差不多快要成精了的 GPT-3 → GPT-3 自動生成某任務上的語料 → 訓練該任務的模型。這篇文章用 GPT-3 生成了一個嘗試知識圖譜,用于訓練一個具有常識推理能力的小模型。結果這個小模型在常識推理任務上的表現比它的爸爸 GPT-3 還要厲害!
論文標題:
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
論文鏈接:
https://arxiv.org/pdf/2110.07178.pdf
近期原創推薦
最后,夾帶私貨地推薦幾篇賣萌屋近期的精彩原創:)
《一文跟進Prompt進展!綜述+15篇最新論文逐一梳理》:從 7 月的 prompt 綜述為起點,對 prompt 相關基本概念做了初步掃盲。并梳理了在其之后的 15 篇 prompt 最新重要工作。推薦收藏~
《僅僅因為方法 Too Simple 就被拒稿,合理嗎?》:佐治亞理工教授在 twitter 上吐槽了自己因“方法 too simple”而慘遭拒稿,引起一眾同情。本文從該事件出發展開了一系列探討——我們究竟在期待怎樣的工作?引用文中的一段話:“現在 AI 界似乎缺少一套系統的理念與方法整合不同領域不同任務不同數據集上的不同成果,同時也缺少或是刻意遮蔽了一個統一的期望解決的最高問題,而將目光下放到在特定數據集上不同方法論間的競爭”。
《你的 GNN,可能 99% 的參數都是冗余的》:大家都用 GNN 在圖上做 reasoning,但是 GNN 真的有用嗎?楊笛一老師的這篇工作表明,GNN 在很多復雜任務上都是可有可無的。GNN能做的 reasoning 僅限簡單的任務(比如計數)于是作者們設計了一個圖上計數的模塊取代 GNN,用不到 GNN 1% 的參數,戰勝 sota。
《如何提升大規模Transformer的訓練效果?Primer給出答案》: 這篇介紹了谷歌爸爸的最新工作 Primer——通過模型架構自動搜索技術,找到一個高效更為 Transformer 變種。實驗表明,Primer 可以用原本三分之一的算力得到相近的實驗結果。然而看完我只想說——AI 圈有了 foundation,還有了 primer,是不是聯名美妝界指日可待!!!?
好了今天的推薦就到這里了。如果各位覺得有用,或者有任何建議的話,還請多多點贊留言呀~ 也歡迎各位把自己看到的有用資訊后臺發送給我們。我們會統一整理,在日后的推送中分享給大家!
萌屋作者:小軼
是小軼,不是小秩!更不要叫小鐵!高冷的形象是需要大家一起維護的!作為成熟的大人,正在勤儉節約、兢兢業業,為成為一名合格的(但是仍然發量充足的)PhD而努力著。日常沉迷對話系統,說不定,正在和你對話的,并不是不是真正的小軼哦(!?)
“高冷?那是站在冰箱頂端的意思啦?!??——白鹡鸰
作品推薦:
1.寫了一篇關于 NLP 綜述的綜述!
2.全球44家機構,55位大佬,歷時兩年,打造最強NLG評測基準!
3.谷歌重磅:可以優化自己的優化器!手動調參或將成為歷史!?
4.ACL20 Best Paper揭曉!NLP模型評價體系或將迎來重大轉折
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的卖萌屋新闻联播栏目,倾情上线~的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GBDT是如何成为推荐系统顶级工具人的?
- 下一篇: 拍不完的脑袋:推荐系统打压保送重排策略