Allen AI提出MERLOT,视频理解领域新SOTA!
文 | Yimin_飯煲
2021年,多模態(tài)領(lǐng)域大概是人工智能研究者們關(guān)注者最多的一個領(lǐng)域了。隨著各種模態(tài)數(shù)據(jù)集的增長和算力的發(fā)展,研究者們開始不斷地嘗試在一個模型中融合來自各個模態(tài)的信息。
而在多模態(tài)領(lǐng)域的研究中,和視頻相關(guān)的任務(wù)被認(rèn)為是最復(fù)雜的。
一方面,高質(zhì)量的視頻數(shù)據(jù)集比圖像數(shù)據(jù)集更加困難,因此數(shù)據(jù)集的數(shù)量和質(zhì)量往往受限;另一方面,視頻數(shù)據(jù)集中含有文本、圖像、語音等多個模態(tài)的信息,還要考慮時間線,融合起來比單純的圖像-文本數(shù)據(jù)更加復(fù)雜。
在AI領(lǐng)域久負(fù)盛名的Allen研究所向這一復(fù)雜的問題發(fā)起了挑戰(zhàn),提出了MERLOT系列工作。
第一篇 MERLOT:Multimodal Neural Script Knowledge Models 發(fā)表于Neurips 2021, 使用了大量的視頻數(shù)據(jù)進行自監(jiān)督預(yù)訓(xùn)練,在12個視頻問答任務(wù)上取得了SOTA;
而第二篇 MERLOT Reserve:Neural Script Knowledge through Vision and Language and Sound 則于今年年初剛剛發(fā)布,進一步深度融合了視頻中的語音信息,在多個任務(wù)上又取得了明顯提升。下面,就讓我們一起來學(xué)習(xí)這兩篇十分Solid的工作吧~
論文鏈接:
MERLOT:
https://arxiv.org/pdf/2106.02636.pdf
MERLOT Reserve:
https://arxiv.org/pdf/2201.02639.pdf
主要方法
MERLOT這一工作使用了視覺編碼器、語言編碼器和聯(lián)合編碼器。作者們設(shè)計了三個任務(wù)來進行優(yōu)化。
第一個任務(wù)是Contrastive Frame-caption matching(標(biāo)題-幀匹配),作者們使用視覺編碼器編碼圖片得到的[CLS]表示和文本編碼器編碼句子得到的[CLS]表示進行對比學(xué)習(xí),使得圖像編碼器具備較好的表示學(xué)習(xí)性能。
第二個任務(wù)是Masked Language Modeling,對模型的語言建模能力進行優(yōu)化。
第三個任務(wù)是Temporal Reordering, 在40%的情況下, 隨機選擇一個整數(shù), 從視頻輸入中的所有幀中隨機選取幀并進行打亂,將位置編碼 (e.g. )替換為隨機且獨特的位置編碼(e.g.). 這些隨機的位置編碼和原有的位置編碼分別進行學(xué)習(xí),可以讓模型學(xué)到恢復(fù)被擾亂的幀順序的能力。
這個任務(wù)的損失函數(shù)是針對一對視頻幀拼接隱狀態(tài),使用兩層MLP分類器進行二分類(和的前后關(guān)系)。
MERLOT Reserve這一工作相比于MERLOT引入了新的模態(tài):語音。
為了更好的融合來自三個模態(tài)的信息,作者們提出了更通用,更統(tǒng)一的訓(xùn)練任務(wù)。
對于每一個Batch的輸入,只輸入視頻的幀和文本/語音中的一個(由于文本和語音的信息具有重復(fù)性), 并且MASK文本/語音中的一部分。作者們提出了對比區(qū)域匹配(Contrastive Span Matching)這一任務(wù), 給定匹配的視頻幀/文本/語音數(shù)據(jù),以文本為例,最小化交叉熵?fù)p失函數(shù):
其中為[MASK]位置的隱狀態(tài)表示,為[MASK]掉的信息的隱狀態(tài)表示,為Batch中其他樣本(負(fù)樣本)的隱狀態(tài)表示。同理定義了,定義:
同樣的,可以定義和。定義總體的損失函數(shù)為:
作者們還使用了一些技巧來提升得到的特征表示的質(zhì)量,感興趣的小伙伴可以去原文細(xì)讀~。
數(shù)據(jù)集
對于大規(guī)模的預(yù)訓(xùn)練工作,除開訓(xùn)練方法之外另一個值得關(guān)注的部分就是使用的數(shù)據(jù)集了。
MERLOT收集的數(shù)據(jù)集為YT-Temporal-180M,從600萬公開的YouTube視頻中抽取得到。
作者們選取的數(shù)據(jù)集比起HowTo100M和VLOG等局限于特定領(lǐng)域的數(shù)據(jù)集范圍更大,主題更廣。
后來的實驗表明,如果僅使用HowTo100M這樣的數(shù)據(jù)集進行訓(xùn)練,會降低模型在下游任務(wù)上的性能。
在MERLOT Reserve這一工作中,作者們擴充了數(shù)據(jù)集,提出了YT-Temporal-1B數(shù)據(jù)集,包含2000萬Youtube視頻,進一步提升了數(shù)據(jù)集的多樣性,而模型強大的性能也說明了擴充數(shù)據(jù)的有效性。
結(jié)果
作者們通過大量的實驗證實了MERLOT和MERLOT Reserve的有效性。對于MERLOT模型,作者們在12個視頻問答數(shù)據(jù)集上開展了實驗,大幅度刷新了SOTA。
MERLOT Reserve模型同樣也有非常強大的表現(xiàn),在視頻常識推理數(shù)據(jù)集上取得了不小的性能提升,超過了許多使用了其他監(jiān)督信息的模型。
由于MERLOT Reserve使用了大量的數(shù)據(jù)進行了自監(jiān)督預(yù)訓(xùn)練,因此在零樣本學(xué)習(xí)上有著不錯的性能,在STAR數(shù)據(jù)集上相比于有監(jiān)督的SOTA都有著明顯的提升。
結(jié)語
多模態(tài)技術(shù)的發(fā)展和商業(yè)化,也許將會帶來人工智能應(yīng)用的新一輪爆發(fā)。以往的多模態(tài)應(yīng)用面臨著模型架構(gòu)復(fù)雜、缺少數(shù)據(jù)、缺少算力等一系列問題,而隨著Transformer結(jié)構(gòu)一統(tǒng)天下,互聯(lián)網(wǎng)上各模態(tài)數(shù)據(jù)的井噴式增長,計算資源越發(fā)普及,這些問題都在慢慢得到解決。
MERLOT系列工作刷新了我們認(rèn)知中視頻理解領(lǐng)域的上限,向我們展示了視頻、語音、文本多模態(tài)高效融合的一種可能性。未來,讓我們一起努力朝著多模態(tài)領(lǐng)域的"BERT"模型進發(fā)吧!
萌屋作者:Yimin_飯煲
在微軟NLC組搬磚的聯(lián)培博士生,愛好攝影和運動,希望賣萌屋早日開通視頻業(yè)務(wù),我來當(dāng)攝影師!
作品推薦
學(xué)完文本知識,我就直接看懂圖片了!
別再Prompt了!谷歌提出tuning新方法,強力釋放GPT-3潛力
大模型煉丹無從下手?谷歌、OpenAI燒了幾百萬刀,總結(jié)出這些方法論…
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的Allen AI提出MERLOT,视频理解领域新SOTA!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 清华提出LogME,无需微调就能衡量预训
- 下一篇: AI技术在空气净化机器人中的高能应用