基于对偶学习的跨领域图片描述生成
作者丨楊敏
學校丨中科院深圳先進技術研究院助理研究員
研究方向丨NLP,數據挖掘,推薦系統
本文經授權轉載自公眾號「AI論道」。
恰逢 CIKM 2017召開(2017 年 11 月 6 日,新加坡),AI 論道的第一篇文章主要介紹我們的被 CIKM 2017 收錄的一篇文章:Dual Learning for Cross-Domain Image Captioning,這里只介紹了論文框架,細節請參照我們的論文。我們后續將 release 代碼。?
圖片描述生成(image captioning)任務是結合 CV 和 NLP 兩個領域的綜合性任務,是一個跨學科跨模態的交叉性任務。其輸入是一副圖片,輸出為對該圖片進行描述的一段文字。這項任務要求模型可以識別圖片的物體以及理解物體之間的關系,并用一句自然語言來表達。
應用場景:例如當用戶拍了一張照片后,利用 image caption 技術為其匹配合適的文字,方便以后檢索或省去用戶手動配字等。此外,它還可以幫助視覺障礙者理解圖片內容。
現在,許多科研團隊和企業都參與來這個任務,包括 Google, IBM, Microsoft, 騰訊等。然而,這些團隊主要在 MS COCO 數據集[1]上進行研究,并未考慮 cross-domain 的問題 (i.e., 訓練數據與測試數據不屬于同一個領域)。
比如,下圖為三個不同的數據,其中 MS COCO 與 Flickr30K 圖片相似,具有比較小的差異。而 MS COCO 與 Oxford-102 數據集則存在較大差異。在 MS COCO 上訓練的模型,在 Oxford-102 數據集上一般表現得非常差。
我們的工作主要致力于解決跨領域圖片描述生成問題 (cross-domain image captioning)。我們采用了 pre-training then adaptation 的策略。首先在 Source domain (i.e. MS COCO) 數據上做 pre-training, 然后再在 target domain (e.g. Oxford-102) 數據上做 fine-tuning。我們的工作主要有以下貢獻:?
1. 據我們所知,我們是第一個將 dual learning 用于圖片描述生成的工作。我們同時優化兩個任務:圖片描述生成和圖片生成。圖片描述生成部分,我們采用了 encoder-decoder 學習框架,其中 encoder 是 CNN (e.g. VGG-19), 而 decoder 是 attention-based LSTM 模型。 圖片生成部分,我們采用了 GAN 學習框架;
2. 圖片描述生成部分,我們應用了強化學習(RL),這樣可以解決傳統 maximize likelihood 所錯存在的 exposure bias 和 non-differentiable task metric 問題;
3. 我們將 MS COCO 做為 source domain, 將 Oxford102 和 Flickr30K 作為target domain。實驗結果證明,我們的方法比傳統方法有較大提升。
pre-training 的過程采用了標準的 encoder-decoder 框架,對于具體細節問題,還請大家參考原文。下面將為大家主要介紹我們的用于 domain adaptation 的 dual learning 方法。
我們采用強化學習強化學習(i.e., Policy gradient)方法來優化整個模型。我們運用了兩類 rewards: evaluation metrics 和 reconstruction reward。前者可以幫助我們充分的優化生成的衡量指標,比如 BLEU,CIDEr 。后者可以幫助我們同時利用 image captioning 和 image synthesis 模型的關聯,提高兩個模型的效果。
另外,因為計算 reconstruction reward 不需要標注數據,我們的模型也可以無監督的或者半監督地進行學習(通過為 policy gradient 選擇不同的 reward)。
reconstruction reward 的計算依賴于 dual learning 過程。我們將 image captioning 作為 primal task A,將 image synthesis 作為 dual task B。例如,當我們從 A 開始時,過程如下:首先,我們用模型 A 為每個圖片 x 生成一個中間描述 y_{mid}。然后,我們用模型 B 為中間描述 y_{mid} 反向生成一個圖片 x’。最后,通過評測這兩個過程的生成結果,我們可以采用強化學習同時提高模型 A 和 B 的效果。
同理,當我們從 B 開始時,我們用模型 B 為每句圖片描述y生成一個中間圖片 x_{mid}。 然后,我們用模型 A 這個中間圖片 x_{mid} 生成一句描述 y’。?
這時我們可以計算模型 A 和模型 B 的 policy gradient 算法的 rewards:
實驗結果
為了驗證我們的跨領域圖片描述生成模型,我們將 MS COCO 作為 source domain,將 Oxford102 和 Flickr30K 作為 target domain。
可發現我們的算法有較高提升。
我們也分別展示了生成的圖片描述:
以及生成的圖片:
關于我們
“AI論道”公眾號主要用于介紹我們團隊(中科院深圳先進院前瞻中心移動大數據實驗室[2])以及 coauthors 的 AI 相關的一些工作。這里要感謝溫偉煌同學,我們的知乎、微博、微信公眾號才得以順利出現在大家面前。
順便打一個招人廣告(我們正在建立一個研究團隊):歡迎對科研有熱情的同學報考我們的研究生,也歡迎同學(本科生、研究生)來我們組里實習,主要做一些關于機器學習(ML),自然語言處理(NLP)(包括將 NLP 用于圖像,金融,安全等領域 )的工作。
具體研究領域請參見我的個人主頁[3],同時,也歡迎大家推薦或者自薦來我們組里做 postdoc。有意者可以將簡歷發至我郵箱:min.yang1129@gmail.com。
相關鏈接
[1] MS COCO 數據集:http://cocodataset.org
[2] 實驗室官網:http://bmi.siat.ac.cn
[3] 楊敏個人主頁:http://minyang.me/
?論文共讀
?和我們一起打卡閱讀
每周共讀1-2篇熱門論文
協同批注√在線討論√直播分享√
?本周論文?
IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
?
?參與方式?
1. 識別下方二維碼加入小組(需注冊)
2. 根據網站引導熟悉閱讀工具操作方式
3. 閱讀本周指定論文并進行批注
?
長按識別二維碼,馬上加入
*論文共讀小組需重新注冊
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看最新論文推薦
總結
以上是生活随笔為你收集整理的基于对偶学习的跨领域图片描述生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深到骨子里的自律,是每周坚持刷几篇最新论
- 下一篇: NIPS 2017 | 线上分享第一期: