Word Embedding News|词嵌入新鲜事:六月刊:GPT-3来了
這里是 WEN(Word Embedding News)|詞嵌入新鮮事。
作為起步,它將基于 Sebastian Ruder NLP News 的每月篩選,聚焦詞嵌入領域。對涉及內容在本人閱讀后的基礎上進行總結、評論。不簡單復制,力求做到小而精。
關于作者:張正,坐標巴黎,上班NLP,下班詞嵌入。
沒想到詞嵌入新鮮事第二期就要改變起步策略:之前說“它將基于 Sebastian Ruder NLP News [6] 的篩選,聚焦詞嵌入領域”,結果前腳說完,Sebastian 就在最新一期 NLP News 中說:
Overall, I’ve realized that trying to provide a comprehensive mix of everything that has been going on is not sustainable for me. So I’ll try to refocus ?with this newsletter and to prioritize covering fewer things in-depth.
非常理解他的選擇,一個人想要緊跟 NLP 各個領域的最新發展,對時間和精力都是巨大的挑戰,專注于某幾個領域對個人來說是更好的選擇。
這件事對詞嵌入新鮮事的直接影響是,我不能再從這單一信息源做篩選深挖了。塞翁失馬,焉知非福,我一方面“被迫”需要搜集的信息源、一方面對內容的選擇編排有了更大的自主性。希望一步一步不斷學習、優化,做得更好。
好了,下面是詞嵌入新鮮事 2020 六月刊。
6 月里最最最重要的新鮮事是 MOJITO。除此之外,詞嵌入領域,本期重點關注三個組織:
ACL:詞嵌入研究趨勢
OpenAI:GPT3 來了
AI2:NLP Highlights 推薦
ACL 2020 之詞嵌入研究趨勢
ACL 2020 發榜不久,官方于 6 月 4 日公布了相關統計數據。
https://acl2020.org/blog/general-conference-statistics/
單看數據,詞嵌入研究工作通常所屬的 Semantics: Lexical 中稿率與 Discourse and Pragmatics 并列倒數第一,17.9%,遠低于 22.7% 的總平均值。
如果再搭配 Trends of ACL 的動態圖,觀察 word-level semantics 變化趨勢,打擊倍增。
https://public.flourish.studio/visualisation/2431551/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
當然,Semantics:Lexical 并不直接等同于詞嵌入研究,隨著 word embedding 在 NLP 中的廣泛應用,及 language modelling 對詞嵌入研究方向的推動,我們這里寬泛意義上的“詞嵌入研究”越來越多地存在于不同的 track 中。
比如,在 ACL 2020 詞嵌入長文匯總分類中,僅長文就 37 篇,遠多于 Semantics:Lexcial 總錄取數 17 篇。
GPT 之野望:大力真能出奇跡?
這個月詞嵌入領域最大的新聞一定是 GPT-3,我也跟個風,從心態、技術及商業三個角度談談它的影響。
這是一個極度容易讓人“心態爆炸”的模型
CloseAI(不好意思打錯了,我是說 OpenAI)不久前“釋出”(之所以打引號是因為目前我們只能看不能用)了 GPT-3 模型。
在 language model 競賽中,它也就“又大了一點點”吧:1750 億參數、31 位作者、72 頁論文 [7]?,訓練下來大約花了 1200 萬刀 [1](望向腳邊機箱里的 2080Ti:“要認清自己的能力,不要總想著在詞嵌入上搞個大新聞,EPIC Games 每周限免他不香嗎?”)。
這是一個對“大力出奇跡”有著堅定信心的技術實踐
調侃完畢,我們來簡單梳理下 GPT 貫穿始終的目的和其從 1 到 3 一路走來的發展脈絡:
總體上看,GPT 的目的一直非常明確,就是想證明“大力出奇跡”的猜想。即在大的數據集上做無監督訓練,是不是當數據大到一定程度時,就不需要在具體且繁多的下游任務上做監督、微調之類的事情了?
具體來看:
2018 年 6 月 GPT-1:大量數據(約 5GB 文本)上無監督訓練,然后針對具體任務在小的有監督數據集上做微調;關鍵詞:“scalable, task-agnostic system”;8 個 GPU 上訓練一個月;預訓練模型(1.1 億參數)可下載 [8];
https://openai.com/blog/language-unsupervised/
2019 年 2 月 GPT-2:大量數據(約 40GB 文本)上無監督訓練,然后針對具體任務在小的有監督數據集上做微調,嘗試在一些任務上不微調(即使結果離 SOTA 還遠);關鍵詞“without task-specific training”;據說在 256 個 Google Cloud TPU v3 上訓練,256 刀每小時,訓練時長未知 [2];預訓練模型(15 億參數)最終公開可下載 [9] ;
https://openai.com/blog/better-language-models/
2020 年 5 月 GPT-3:大量數據(499B tokens)上無監督訓練,不微調就超越 SOTA;關鍵詞 “zero-shot, one-shot, few-shot”;訓練據說話費 1200 萬刀;1750 億參數,將會開放付費 API [10] 。
72 頁論文我既沒精力也沒心力讀下來,因此推薦這篇總結博文:
https://anotherdatum.com/gpt-3.html?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
簡單來講,GPT-3 一定程度上證明了大力真的可以出奇跡,無需 fine-tuning 就能在下游任務中“大顯神威”。GPT-3 的關注點在 zero-shot、one-shot 和 few-shot 學習,它證明了一個足夠大的模型在訓練時可以獲得更寬泛的 NLP “技能”和模式識別的能力,這些能力使它在推斷時可以迅速地適應或識別出下游任務。
說點感性上的感受:詞嵌入、語義等的核心我認為是 context,context 可以翻譯成“上下文”,這個翻譯用來理解 word2vec 或 language modeling 等都非常直觀。當然 context 也可以翻譯為“語境”,語境是一個更宏大的詞,是一種對更寬泛環境的理解能力。
對于人來說,能感知并理解語境需要強大的能力,往往基于廣泛的閱讀,但人的閱讀能力總是有極限的。GPT 想證明的事情,像是人類對基于廣泛閱讀的語境理解能力的極限探索。
比起技術的成熟,它在商業上還是個“萌新”
還好 GPT-3 也不是樣樣都行,至少它在商業上還是個“萌新”,這多多少少給我們早已“爆炸”的心態帶來了些許安慰。
先來看看 OpenAI 幾個商業上的時間點:
2015 年 10 月 創立;非盈利
2018 年 2 月 Musk 退出董事會
2019 年 3 月 成立 OpenAI LP [3],他們自己所謂的 “a hybrid of a for-profit and nonprofit”,這不重要,重要的是他們開始需要為投資人的錢負責了
2019 年 7 月 微軟投資 10 億刀 [4]
拿這個時間線對照 GPT 時間線,或許有助于我們從另一個角度理解 GPT 的一些選擇:
比如 GPT-2 剛官宣時的爭議。眾所周知,GPT-2 的完整模型一開始是沒有被公開的,官方博客 [11] 的解釋是:
Due to our concerns about malicious applications of the technology, we are not releasing the trained model. [5]
因為怕這個強大的模型被濫用,官方決定公布一個較小的模型(CloseAI 的外號就是這么來的)。
我們看下 GPT-2 推出的時間,2019年2月。OpenAI 一個月后就改變架構、成立以盈利為目的 OpenAI LP,5 個月后獲得微軟投資。
我們有理由相信 GPT-2 公布時、甚至訓練時 OpenAI 非盈利的組織架構就已經快玩兒不轉了。不公布模型,一方面是作為非營利組織心系天下、有社會責任感的“最后的倔強”;
另一方面也為下一步作為需要盈利的公司,給投資人有個交代、爭取商業合作、獲得融資等提供了想象空間(畢竟,因為如果直接開源,GPT-2 的商業價值就極其有限了)。
到了 GPT-3 的時代,OpenAI 選擇將其作為一個付費 API(或者說一種服務)來讓大家使用,這是 OpenAI LP 獲得微軟投資后的一步重要商業化實踐。背靠微軟這棵大樹,用 Azure 云計算技術訓練模型(GPT-2 時代用的還是谷歌家的 TPU),基于 Azure 提供 API 服務,甚至連注冊 API 的線上問卷也用的是 Microsoft Forms。
個人認為商業化是非常好的事情,對AI真正落地會產生積極影響。如果把金錢看作全球普遍接受的、有統一標準的評價方法,那 GPT-3 在 NLP 任務上斬獲無數? SOTA 后,下一關,就是看它在盈利能力上,是否同樣可以獲得 SOTA 了。
BTW,目前這個 API 服務還未上線,感興趣的朋友可以通過填寫這個線上問卷加入 OpenAI API Waitlist。
https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u
AI2之跨語言詞嵌入播客
說完 OpenAI 再來說說另一家“廠牌” Allen Institute for AI,aka AI2。
AI2 有一個非常好的播客叫 NLP Highlights,主持人是 Matt Gardner,Pradeep Dasigi 和 Waleed Ammar。NLP Highlights 值得聽的原因是主持人都是內行,所以不用擔心會聽到記者采訪式的外行問題。
他們第 112 期節目邀請來自 UC Berkeley 的 Steven Cao 聊了聊多語語境詞嵌入的對齊(alignment of multilingual contextual word embeddings)問題。這期播客的重點不是受訪者,反而是主持人對這一領域的觀點。
https://soundcloud.com/nlp-highlights/112-alignment-of-multilingual-contextual-representations-with-steven-cao
在 ACL 2020 詞嵌入長文匯總及分類中我們就說到,跨語言語境詞嵌入的相關研究是目前的熱點之一。
我認為其中一個原因是,傳統跨語言詞嵌入的方法已經很成體系了,當語境詞嵌入來了后,大家不免都會思索如何把以前各種各樣的方法用過來。在 GPT 等語言模型研究越來越復雜的大環境下,跨語言語境詞嵌入研究才剛剛開始,可以試的點子非常多,并沒有很復雜(說白了就是性價比高)。
Steven Cao的這篇文章就是這樣,“舊瓶裝新酒”,上 NLP Highlights 絕對是勇氣可嘉。
https://arxiv.org/pdf/2002.03518.pdf
個人認為 NLP Highlights 的精華經常是在主持人的發言:
首先是主持人的轉述。不管受訪者說得多高端玄妙、抑或云里霧里。主持人總能準確的轉述成“人話”,方便聽眾理解。
然后就是提問。這個博客有時候就像在線 review,問的問題很要害。
比如在這一期里,在了解到作者用 IBM model 獲得一對一的詞對來做詞嵌入對齊的監督。主持人的問題便是,如果一個詞組在另一個語言里對應的是一個詞,你這個一對一怎么生成?
作者舉例,比如 “would like to” 在德語里對應一個詞 X(不懂德語,就用 X 代替吧),那么這里的一對一發現實際上是 “like” 對 X。因為是語境詞嵌入,因此此處的 “like” 可能某種程度上已經包含了整個詞組的含義。
主持人緊跟著就質疑,那對齊在詞級別上做會不會不是一個好主意,尤其對于語境詞嵌入,因為不同語言中未必能在詞級別上找到一對一的語境對應。后面又提到作者的方法之所以效果好,也可能是作者用的平行語料基本上是基于逐詞翻譯的,跟數據有很大關系。
這集博客的核心討論點圍繞在為什么要在詞級別上做,這是非常值得討論的問題,不能因為以前傳統詞嵌入詞級別上的對齊工作很多,就自然而然覺得語境詞嵌入也要在詞級別上做。
可能從主持的角度來說主持人不應該太強勢或過于主導,但是從學術探討的角度來說,這個博客就像 open live review,非常有趣。
除此之外,我個人在本月也終于完成了 word2vec 的第三篇介紹,word2vec 算是告一段落了。
以上是詞嵌入新鮮事六月刊 (總第二期),麻煩給我的讀者來一杯 mojito。
Stay 微醺. Stay Foolish.
參考鏈接
[1] https://venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-everything/
[2]?https://www.theregister.com/2019/02/14/open_ai_language_bot/
[3] https://openai.com/blog/openai-lp/
[4] https://openai.com/blog/microsoft/
[5] https://openai.com/blog/better-language-models/
6] http://newsletter.ruder.io
[7] https://arxiv.org/abs/2005.14165
[8] https://github.com/openai/finetune-transformer-lm
[9] https://github.com/openai/gpt-2-output-dataset
[10]?https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u
[11]?https://openai.com/blog/better-language-models/
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的Word Embedding News|词嵌入新鲜事:六月刊:GPT-3来了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不止《永劫无间》,网易《蛋仔派对》也称未
- 下一篇: A股养老板块龙头 已经引来了很多机构研究