你说我导!微软玩转标题描述生成视频
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?107?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @TwistedW。本文來自微軟亞洲研究院,根據描述生成視頻是此篇文章實現的目的。通過 LSTM 對描述標題提取特征,再結合噪聲經過 3D 反卷積生成視頻,利用 GAN 的思想優化生成質量,判別的時候根據視頻和描述的匹配關系來判斷真假,通過視頻、視頻幀、幀之間的判別實現了描述到視頻的生成。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:武廣,合肥工業大學碩士生,研究方向為圖像生成。
■?論文 | To Create What You Tell: Generating Videos from Captions
■ 鏈接 | https://www.paperweekly.site/papers/2315
■ 作者 |?Yingwei Pan / Zhaofan Qiu / Ting Yao / Houqiang Li / Tao Mei
視頻生成在計算機視覺上已經是很困難的工作了,按照描述去生成視頻是更具有挑戰性的工作。To Create What You Tell: Generating Videos from Captions 簡稱為 TGANs-C,在實驗上實現了由描述的標題生成相對應的視頻,這個工作很有意義,整體思想上采取 GAN 為主題框架實現,我們一起來讀一下。
論文引入
視頻生成的困難在于視頻是視覺上連貫和語義相關的幀的序列,也就是在時序序列上做生成,一涉及到時序就存在大量的不確定性,這也是語音和視頻生成上的難點所在。
視頻通常伴隨有文本描述,例如標簽或字幕,因此學習視頻生成模型對文本進行調節從而減少了采樣不確定性,這個是具有很大的潛在實際應用。GAN 在實現時序上的生成我們之前有寫到 Temporal GAN 論文解讀 [1]、VGAN 論文解讀 [2],整體的思想都是采用 3D 卷積處理視頻序列從而實現視頻的生成。?
TGANs-C 和 TGAN 的區別在與 TGANs-C 實現了由描述性文字到視頻的生成,這篇論文在基礎上借鑒了文本到圖片生成的 GAN-CLS 即采用配對的思想,這個我們后續再談,如果你對 GAN-CLS [3] 印象很深的話這篇文章讀起來會很輕松。?
通常,在采用標題調節的視頻生成中存在兩個關鍵問題:跨視頻幀的時間一致性以及標題描述與生成的視頻之間的語義匹配。前者產生了對生成模型學習的見解,相鄰視頻幀通常在視覺上和語義上是連貫的,因此應該隨著時間的推移而平滑地連接,這可以被視為產生視頻的內在和通用屬性。后者追求的模型能夠創建與給定標題描述相關的真實視頻。
因此,一方面考慮條件處理以創建類似于訓練數據的視頻,另一方面考慮通過整體利用字幕語義和視頻內容之間的關系來規范生成能力,這正是 TGANs-C 所考慮的。?
總結一下 TGANs-C 的優勢:?
這是第一個在標題描述下生成視頻的工作之一?
實現了視頻/幀內容與給定標題對齊?
通過一系列廣泛的定量和定性實驗,驗證了 TGANs-C 模型的有效性
TGANs-C模型結構
我們還是先來看一下模型的網絡結構:
整體上模型分為左右兩塊,左邊是生成器,右邊就是判別器,所以說 TGANs-C 是以 GAN 為主體框架的模型,我們分開來分析。
生成網絡?
生成網絡下由兩塊組成,下面是標題描述的文本編碼,上面就是在噪聲和文本編碼特征作為輸入的生成器。對于文本編碼,文章采用的是雙向 LSTM 做的編碼。文字描述的時序和語義結構是緊密相關的,所以需要保留時序信息,所以 RNN 的思想是處理的關鍵。對于文本編碼過程中采用逐個單詞雙向處理,雙向 LSTM 可以保證文本上更加緊密的時序和語義結構,最終編碼到特征維度為文中取的是 256 維。
將文本編碼得到的特征向量 S 和先驗噪聲 z 做 concat送入 3D 反卷積網絡做視頻的生成,整個過成處理上為,這里的代表的是通道數、幀、高、寬,這里的高和寬對應的是視頻一幀圖像的長寬,幀代表反卷積下包括多少視頻幀,比如最后的輸出文中取的是 16 幀作為視頻的輸出。
可以看到,經過 3D 反卷積后,由噪聲和文本編碼最后生成了彩色的 16 幀大小為 48×48 的視頻輸出。整個生成器我們可以將標題描述特征作為條件,整個生成器是類似于條件生成器,由標題描述特征作為條件生成對應的視頻。
判別網絡?
TGANs-C 有著強大的判別網絡,文章為了實現判別效果設計了 3 個判別器,圖中對應的是右半邊上、中、下。
上面一路的判別器命名為,它的目的是為了區別生成的視頻和真實的視頻的真假,為了保證與標題描述對應,在最后嵌入了標題特征做匹配。這個思想在 GAN-CLS 最早被應用,為了實現和描述文本的匹配,在判別器的設計上增強了判別器的能力。
判別器不僅判斷視頻的真假還判斷視頻是否和標題描述對應,配對就這樣產生了,由 3 組配對關系:真實視頻和正確標題描述、生成視頻和真實標題描述還有就是真實視頻和錯誤標題描述。判別器只有在真實視頻和正確標題對應上才判斷為真,否則為假,即真,、為假。與之對應的損失函數為:
中間一路的判別器命名為 D1,它的目的是為了區分對應的視頻幀的真假,同樣的加入了與標題描述的匹配,用描述視頻的第 i 幀對應的圖像,對于整個視頻一共有幀,這個判別器對應的損失為:
下面一路的判別器命名為 D2,它的目的是為了在時序上調整前后幀的關系,一般視頻中前后幀之間不會有太大的變動,由此思想文章設計了時序關聯損失。它的作用是保證視頻的前后幀之間不會有太大的差異,用 D 表示:
由于決定生成的視頻幀的幀之間的關系的是生成器,對于真實視頻沒必要再做差異優化,所以這部分主要作用的是生成器,這一塊的損失可以寫為:
為什么這里的上標為 1 呢,因為對應的還有 2,這一部分是考慮到生成視頻幀之間的關聯差異,從動態差異上實現對抗又會怎么樣呢?這就是另一種實現時序關聯的方法。 這一部分用 Φ2 判斷真假,此損失表示為:
文中對時序關聯上采取的方法 (1) 時間相干約束損失命名為 TGANs-C-C,對于方法 (2) 時間相干性對抗性損失命名為 TGANs-C-A。從后續的實驗上驗證出 TGANs-C-A 的方法效果更好,所以文章的名字 TGANs-C 其實指的是 TGANs-C-A。?
整合一下,對于方法 (1) TGANs-C-C 對應的判別器和生成器最終損失為:
對于方法 (2) TGANs-C-A 對應的判別器和生成器最終損失為:
最后貼上實現整個 TGANs-C 的偽代碼:
TGANs-C實驗
實驗的數據集選擇了單數字邊界 MNIST GIF(SBMG),兩位數的彈跳 MNIST GIF(TBMG)和微軟研究視頻描述語料庫(MSVD)。
SBMG 是通過在 64×64 幀內彈出單個手寫數字而產生的。它由 12,000 個 GIF 組成,每個 GIF 長 16 幀,包含一個 28×28 左右移動的數字左右或上下。數字的起始位置是隨機均勻選擇的。每個 GIF 都附有描述數字及其移動方向的單句。
TBMG 是 SBMG 的擴展合成數據集,包含兩個手寫數字彈跳,生成過程與 SBMG 相同,每個 GIF 中的兩個數字分別左右或上下移動。MSVD 包含從 YouTube 收集的 1,970 個視頻片段。每個視頻大約有 40 個可用的英文描述。在實驗中,手動過濾掉有關烹飪的視頻,并生成 518 個烹飪視頻的子集。數據集的部分描述如下圖:
TGANs?C1 為僅考慮視頻對抗,TGANs?C2 為考慮了未考慮,TGANs-C-C 和 TGANs-C-A 都已經知道了構成,這幾個對比結果為:
定性分析不同模型產生的結果如下圖,主要對比了 VGAN、Sync-DRAW(基于 VAE 實現的)、GAN-CLS 和 TGANs-C。
定量上以不同人的選擇,給分越低效果越好,TGANs-C 也展示了很好的效果:
總結
TGANs-C 實現了標題描述到視頻的生成,正如文章的題目說的那樣 To Create What You Tell!雖然這個題目有點大,但是確實在理論上是可以行得通的。匹配的思想對于嚴格的固定生成來說是很重要的一個技術環節,可以借鑒在很多地方,正是這種嚴格的配對關系往往限制了一些發展,因為這種算是全監督式學習了。無監督下條件生成是最為困難的,這個也是未來大家一起努力的地方。
參考文獻
[1]. https://www.paperweekly.site/papers/notes/443
[2].?https://www.paperweekly.site/papers/notes/449
[3]. Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, and Honglak Lee. 2016. Generative adversarial text to image synthesis. In ICML.
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
ECCV 2018最佳論文:基于解剖結構的面部表情生成
神經網絡架構搜索(NAS)綜述
從傅里葉分析角度解讀深度學習的泛化能力
ECCV 2018 | 從單幀RGB圖像生成三維網格模型
ECCV 2018 | 基于三維重建的全新相機姿態估計方法
ECCV 2018 | 騰訊AI Lab提出視頻再定位任務
杜倫大學提出GANomaly:無負例樣本實現異常檢測
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的你说我导!微软玩转标题描述生成视频的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 细水长flow之f-VAEs:Glow与
- 下一篇: ECCV 2018论文解读 | Deep