Word Embedding News | 词嵌入新鲜事:COVID-19特刊
這里是 WEN(Word Embedding News)|詞嵌入新鮮事。
作為起步,它將基于 Sebastian Ruder NLP News 的每月篩選,聚焦詞嵌入領(lǐng)域。對涉及內(nèi)容在個人閱讀后的基礎(chǔ)上進(jìn)行總結(jié)、評論。不簡單復(fù)制,力求做到小而精。
關(guān)于作者:張正,坐標(biāo)巴黎,上班NLP,下班詞嵌入。
本期關(guān)注 word embedding 在 COVID-19 中的應(yīng)用:
機(jī)器翻譯:如何將“Wash your hands”翻譯成 500 多種語言
問答系統(tǒng):多語言 COVID-19 智能問答助手?
預(yù)訓(xùn)練模型:基于 COVID-Bert 的又一個智能問答助手?
COVID-QA 關(guān)系抽取:基于 CORD-19 (COVID-19 Open Research Dataset) 數(shù)據(jù)集的無監(jiān)督關(guān)系嵌入(relation embeddings)訓(xùn)練
如何將“Wash your hands”翻譯成500多種語言
關(guān)鍵詞:cross-lingual word embeddings,機(jī)器翻譯,MUSE
原文鏈接:https://datadan.io/blog/wash-your-hands
不要以為 Google Translate 已經(jīng)解決所有問題了,稀有語種一直是令 NLP 頭疼的大問題。世界上現(xiàn)存 7117 種語言,而 Google Translate 僅能覆蓋常見的約 100 種語言。而 COVID-19 是無國界、不分語言的,因此把“Wash your hands”翻譯成 500 多種語言,在我看來是小問題、大貢獻(xiàn)。
語料
語料庫是跨語言詞嵌入訓(xùn)練中第一個需要考慮的問題。對于訓(xùn)練,通常來說平行語料庫好于可比語料庫好于相互獨立的單語語料庫。當(dāng)然,它們的獲取難度是越來越小的。要應(yīng)付 500 多種語言,意味著絕大多數(shù)只能是各自的單語語料庫。這樣的前提又會造成監(jiān)督信息獲取的困難,因此作者選擇無監(jiān)督學(xué)習(xí)的解決方案。
映射
跨語言詞嵌入無監(jiān)督學(xué)習(xí),第一個應(yīng)當(dāng)想到什么?對,MUSE [1](又是 Facebook,他們在跨語言詞嵌入方面是真的強(qiáng))。
找尋
回歸到“wash your hands”這個具體問題,它是一個 phrase 不是一個單詞,因此下一個棘手問題就是怎么找到這個 phrase 的對應(yīng)。作者決定除了找“wash your hands”本身,還找它的組成部分如“wash your”和“your hands”等。在 MUSE 訓(xùn)練(映射)后的目標(biāo)語言 embeddings 空間中找離這些詞組位置最近的 n-grams 作為它們的翻譯。注意!是 n-grams 而不是單詞,因為作者的假設(shè)是,phrase 的翻譯一般還是個 phrase。
組合
最后一步就是組合出“wash your hands”的正確翻譯,比如通過上一步找尋,在目標(biāo)語言中找到了“wash your feet”的對應(yīng) n-gram,那這里就需要再次利用跨語言詞嵌入,找出“feet”的對應(yīng)翻譯并作替換。
效果評價
畢竟有 500 多種語言,很難去說翻譯是否完全正確、地道。對于 Google Translate 支持的語言,可以反翻譯回英語做對比。其他語言至少可以借助詞典看關(guān)鍵詞是否翻對。畢竟人對語言的理解是基于 context 的,在實際應(yīng)用中,大致翻出來總比沒有好。
[1]?https://github.com/facebookresearch/MUSE
多語言 COVID-19 問答助手
關(guān)鍵詞:多語言,問答系統(tǒng)
原文鏈接:https://blog.ml6.eu/how-ml6-built-a-multilingual-covid-19-assistant-powered-by-nlp-9c75bc4ea0c1
僅用 3 天就做成的支持 16 種語言的線上問答系統(tǒng):
https://corona.ml6.eu
信息源
畢竟是事關(guān) COVID-19 的問答系統(tǒng),信息源的選擇非常重要,這樣才能從根本上杜絕假新聞。下一步,爬內(nèi)容,作者選擇 scrapy [1] 從可靠信息源的 FAQs 爬取了約 500 個問答對。
句嵌入
如果是簡單的基于關(guān)鍵詞的搜索,作者推薦用 elasticsearch [2]。不過這樣就沒什么 word embedding 什么事了,為了讓搜索更寬泛(基于語義),作者決定訓(xùn)練 embedding。
畢竟是 2020 年,別再什么 word2vec 了,直接基于上下文的詞嵌入;再想想又是問答系統(tǒng),直接訓(xùn)練句嵌入好了。因此,作者選擇 Google 的 The Universal Sentence Encoder [3]。
正好上述模型支持 16 種語言,那就順帶支持多語言搜索好了。反正都在一個跨語言嵌入空間里。模型什么的直接用 TF Hub [4] 上現(xiàn)成的,一行搞定。
搜索
因為應(yīng)用場景是用戶提問題,因此句嵌入空間只需要計算所有問題的句子的就行了。當(dāng)用戶輸入問題時,只需要在句嵌入空間中找到最接近的句子,返回相應(yīng)答案。
因為只有約 500 句,因此計算相似度直接遍歷并計算就行了,如果 embeddings 多,作者推薦可以用:
faiss [5](來自Facebook)
annoy [6](來自Spotify)
elastic [7]
工程
工程方面我了解有限,先列出來,以后多學(xué)習(xí)。
API 基于 Zalando 的 connexion [8] 框架。
部署到 Google Cloud Platform(GCP),因為就一個 container,所以選擇 Cloud Run [9]。
用 Cloud Functions [10] 和 Cloud Scheduler?[11] 每天早上自動更新問答庫。
ML6公司
這個工作來自一家叫 ML6 的比利時 AI 公司,在歐洲多地有辦公室。瀏覽了下公司網(wǎng)頁覺得很酷,有種 Deepmind 等尚未被巨頭收購,但已不是小 startup 的感覺,值得關(guān)注。
ML6公司官網(wǎng):https://ml6.eu
[1] https://scrapy.org
[2] https://www.elastic.co/cn/
[3] https://research.google/pubs/pub46808/
[4] https://tfhub.dev
[5] https://github.com/facebookresearch/faiss
[6] https://github.com/spotify/annoy
[7] https://www.elastic.co/cn/
[8] https://github.com/zalando/connexion
[9] https://cloud.google.com/run
[10] https://cloud.google.com/functions
[11] https://cloud.google.com/scheduler
COVID-BERT 及 COVID-QA
這個時候肯定少不了 BERT 出一分力。
德國 startup deepset [1] 基于 COVID-19 相關(guān)文章 fine-tune 了一個 COVID-BERT 預(yù)訓(xùn)練模型,該模型在 HUGGING FACE?[2] 的 Transformers 中可以直接用:
https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
基于 COVID-BERT,作者搭建了 COVID-QA:
https://covid.deepset.ai/home
這是個非常標(biāo)準(zhǔn)的從 BERT 到 QA 系統(tǒng)的實例,想了解一整套代碼的看這里:
https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help
[1] https://deepset.ai
[2] https://huggingface.co
CORD-19-SeVeN:基于CORD-19數(shù)據(jù)集的無監(jiān)督關(guān)系嵌入訓(xùn)練
原文鏈接:https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
關(guān)系嵌入對于醫(yī)學(xué)相關(guān)的文本分析、應(yīng)用尤其重要,比如可以提取(癥狀,藥品)等關(guān)系。
此工作基于 COVID-19 研究的數(shù)據(jù)集 CORD-19 [1] 訓(xùn)練關(guān)系嵌入。
雖然詞嵌入空間中,詞與詞的語義關(guān)系也可以被其相對空間位置表示,但并不是每種關(guān)系都在空間中井然有序的:
SeVeN(Semantic Vector Networks)通過詞對的來建立關(guān)系嵌入的模型。該模型來自 COLING 2018 的文章 SeVeN: Augmenting Word Embeddings with Unsupervised Relation Vectors [2]。
(這篇文章可能會對無監(jiān)督的“文本 -> 詞嵌入 -> 知識網(wǎng)絡(luò)”的思路有些啟發(fā),因此將會在詞嵌入雜談專欄中做單獨介紹。)嫌讀論文累的可以先看作者的 Blog:
https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78
[1] https://www.semanticscholar.org/cord19
[2] https://www.aclweb.org/anthology/C18-1225.pdf
以上就是詞嵌入新鮮事的第一期。祝大家身體健康!力所能及的前提下用 NLP 讓世界多美好一點點。
Stay Hungry. Stay Foolish.
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的Word Embedding News | 词嵌入新鲜事:COVID-19特刊的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一般在公司干多久会升职 入职前
- 下一篇: 超详综述 | 基于深度学习的命名实体识别