SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统
作者丨張琨
學校丨中國科學技術大學博士生
研究方向丨自然語言處理
論文動機
對話系統一直是自然語言理解領域一個重要的研究內容,它可以使人們更便捷的與機器進行交互,多模態的對話系統就是其中非常重要的一個研究方向。
以下圖的零售業對話為例,首先多模態對話能夠帶給顧客更加詳細直觀的建議,通過加入圖片信息,顧客能夠更加直接的表達出自己的觀點;同時,通過顧客的關注點,例如顏色,樣式等,對話機器人能夠更清楚的獲取顧客的偏好,從而最終為顧客提供符合其要求的推薦內容,提升顧客的滿意度。
基于這樣的一個想法,本文作者針對任務型對話系統,提出了用戶注意力指導的多模態對話系統。
模型
具體而言,在任務型對話系統中,作者希望利用用戶的注意力信息實現對產品的層次化選擇,在每一個不同的層次關注到不同的產品特點,通過細化的區分實現精準的產品推薦。模型的整體框架圖如下:
該框架主要完成兩個任務:文本回復生成與圖像回復選擇。多模態編碼器和解碼器用于編解碼多模態的內容信息,同時由一個高層次的 RNN 控制整個對話進程。接下來,將詳細講述每個部分的相關細節。
多模態編碼器
該模塊主要用于編碼文本信息和圖像信息,生成情境感知的語義內容表示。針對文本內容,考慮到不同的文本對最終的語義表達貢獻不同,作者在這里使用了基于 CNN 的注意力機制,具體由以下公式實現:
首先為了獲取到詞之間的序列信息,作者使用了 BI-LSTM 處理每個詞,在得到隱層狀態之后,作者使用了基于 CNN 的方法計算不同的權重,相比于傳統的注意力計算方法,這里針對每個詞的權重計算方法考慮了局部信息,也就是說每個詞的權重信息不單單是由它自身決定,同時也是由它周圍的上下文決定。
當然如果在這里想使用 multi-head 的結構的話,那么也可以考慮使用多個卷積核,這是一個非常有意思的操作。接下來就是對所有的隱層狀態做加權和,得到最后的文本語義表示。
針對圖像信息,在目前的電子商務中,每個產品都會擁有很多類別屬性,并且這些屬性可以整合為層次化的樹結構。同一類產品會擁有很多相同的特征。因此作者在這里使用了基于分類學的屬性樹結構表示。
作者首先定義了 N 個常見的屬性,然后構建了一個 key-value 的屬性樹來分析用戶的偏好。key 就是屬性值,例如顏色,樣式,value 就是具體的內容,例如紅色,長褲等,具體的模型圖如下:
作者首先利用一個殘差網絡處理輸入的圖像,然后將得到的特征表示張量輸入到基于分類學的屬性樹中,該樹包含了 L 層和 M 個葉節點,每個葉節點表示的一類產品,而該葉節點對應的路徑就是屬性信息。通過這樣的一個形式就可以在屬性層次上對圖像的特征表示進行不斷更新:
最后,這些特征信息就要和文本特征信息進行整合,從而計算出顧客在不同屬性上的關注度,進而得到顧客注意力指導的圖像語義信息表達:
最后就是多模態信息融合,作者使用 VQA 中常用的一個融合方式 MFB 實現圖像和文本信息的融合,并通過池化操作得到本輪對話最后的狀態輸出,并使用高層的 RNN 控制整個對話進程:
多模態解碼器
在 decoder 階段,作者針對圖像和文本使用了兩種解碼方式,具體的方式如下圖:
1. 基于 RNN 的回復生成方式,基于編碼階段高層 RNN 的輸出狀態,使用一個語言模型用于生成對話系統的機器人的回復:
2. pairwise 的排序方法,基于圖像和上下文的相關性,從一系列相關圖像中選出最相關的圖像,在這里作者使用了 cosin 相似度作為度量標準,并通過非監督的方法進行訓練。
以上就是這個模型的細節內容。
實驗
作者在一個公開的多模態對話數據集上進行了實驗,并使用了 BLUE-N 作為評價標準,在實驗結果對比上,作者分別對比了文本生成的效果以及圖像選擇的效果,具體結果如下:
從實驗結果可以看作,作者提出的模型在多個指標上都遠遠優于 baseline,充分證明了作者模型的有效性,同時為了更好的展示模型效果,作者還展示了相關的例子,如下圖:
總結
針對任務型對話系統,作者利用用戶的注意力信息,通過從屬性角度對商品進行細分,分層的建模顧客的興趣,從而最終實現精準的推薦;另外加入了圖像信息,從而保證了整個交互過程更加的準確高效。這是一篇非常值得學習的文章。
參考文獻
[1]?Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11?[2]?Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward?multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2[3]?J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8?[4]?Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8?[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.[8]?Dongwook Lee,?Junyoung Kim, Won-Jin Moon,?Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4[10]?Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7點擊以下標題查看更多往期內容:?
SIGIR 2019 | 基于人類閱讀行為模式的機器閱讀理解
近期值得讀的知識圖譜論文,這里幫你總結好了
后BERT時代的那些NLP預訓練模型
SIGIR 2019?| 結合答案信息的重復問題檢測方法
最新綜述:對話系統之用戶模擬器
神經機器閱讀理解最新綜述:方法和趨勢
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的SIGIR 2019 开源论文 | 用户注意力指导的多模态对话系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无监督构建词库:更快更好的新词发现算法
- 下一篇: 作者招募 | 加入PaperWeekly