给定的 columnmapping 与源或目标中的任意列均不匹配_闻歌研究 | 图文自动匹配任务研究调研...
認知計算部
作為中科聞歌的基礎研究部門,認知計算部依托于中科聞歌多年來積累的媒體大數據、高性能云計算平臺以及高素質技術人才,致力于將認知計算技術應用到廣泛的業務場景中并推動前沿技術發展,研究方向包括但不限于自然語言處理、計算機視覺、認知心理學、數據挖掘等。
1
簡介
圖文匹配任務主要研究的是如何衡量圖片與文本在語義層面上的相似性。在研究初期,常用的技術方法是分別對圖片和文本使用兩個不同的網絡進行學習,然后通過全連接網絡將圖片和文本特征轉化到同一個語義空間,使用余弦相似性或者歐氏距離來衡量兩者的匹配程度。匹配網絡學習的目標是將正確的圖片和文本對之間的相似性打分顯著高于錯誤的圖片和文本對。對于圖片特征抽取模塊,可以使用CNN網絡(比如VGG[1],ResNet[2],EfficientNet[3])提取圖片特征;對于文本特征抽取模塊,可以使用RNN網絡(比如LSTM[4],GRU[5])或者BERT[6]等提取文本特征。下面將詳細介紹圖文匹配經典模型及近年來多模態BERT在圖文匹配領域的一些研究進展。2
圖文匹配模型
目前基于對象共現來學習圖像和文本的對應關系的圖文匹配方法,大致可以分為兩種:全局對應和局部對應。全局對應主要學習整個圖像和句子之間的對應關系,局部對應主要學習圖像局部區域和單詞之間的對應關系。
2.1
全局對應
全局對應將整個圖像和句子映射到一個通用語義空間來進行圖文匹配[7-9]。Kiros等人[7]首次嘗試使用深度卷積神經網絡(CNN)對圖像進行編碼和遞歸神經網絡網絡(RNN)對句子進行編碼,然后使用Hinge-based Triplet Ranking Loss作為距離度量指標度量圖像與文本的匹配程度。Faghri等人[8] 在Triplet Loss函數中利用了hard negatives,并顯著改善了匹配效果。Peng等人[10]和Gu等人[11]將生成過程結合到跨模態特征嵌入中,以學習全局抽象特征和局部層次特征。
2.2
局部對應
局部對應是在圖像局部區域和單詞的水平上考慮潛在的視覺語言對應關系。Lee 等人[12]提出SCAN模型,使用目標檢測網絡Faster R-CNN[13]檢測和編碼圖像區域,提取其特征,使用Bi-GRU模型提取句子中每個單詞的特征,最后通過堆疊交叉型的注意力機制(Stack Crossing Attention)得到圖像和文本的匹配程度(如圖1所示)。
圖1 SCAN示意圖
Stacked Cross Attention 的輸入有兩個:一個是圖像特征?, 每一個圖像特征編碼了圖像中的一個區域; 另外一個是單詞特征 每一個單詞特征編碼了句子中的一個單詞。輸出是圖像文本對之間的相似性得分。該模型涉及兩個階段的注意力計算。
給定圖像及其個檢測框,一個帶有個單詞的句子,第一階段注意力。首先計算所有檢測框和單詞對之間的余弦相似性:
其中,代表第個檢測框和第個單詞之間的相似性,代表第個檢測框的特征向量,? 代表第個單詞的特征向量。對相似矩陣進行歸一化,得到 。然后,用對應圖像區域計算每個單詞的權重,對每個單詞的詞向量進行加權組合,最終得到加權后的文本表示。單詞的權重計算公式為:
加權后的文本表示為:
其中,? 表示第個檢測框對應的加權的文本表示。
第二階段的注意力計算是給定加權的文本表示, 確定每一個圖像區域的重要性。第個檢測框和對應的加權文本的相似性計算公式如下:
最后把?個檢測框的相似性進行加權疊加,就得到圖像和文本?之間的相似性,計算公式如下:
在SCAN的基礎上,Wang等人[14] 整合了位置嵌入以增強圖像和文本的聯合嵌入學習,Liu等人[15]則提出消除對應學習中部分不相關的單詞和區域。為了學習圖像和文本之間的關系和屬性的細粒度對應關系,Liu等人[16]進一步提出圖結構化匹配網絡(GSMN),將對象、關系和屬性建模為短語,并通過對這些局部短語進行匹配來共同推斷細粒度的對應關系(如圖2所示)。圖2 GSMN網絡
GSMN網絡由三個模塊組成:(a)特征提取:使用Faster R-CNN 和Stanford CoreNLP分別檢測顯著區域和解析語義依賴性。(b)圖的構造:圖的節點是對象、關系或屬性,如果任意兩個節點在語義上是相關的,則存在邊。(c1)節點級匹配:分別學習對象、關系和屬性的對應關系。(c2)結構級匹配:將學習到的對應關系傳播給鄰居節點,以共同推斷出細粒度的短語對應關系。
文本構建圖: 根據句法分析工具 Stanford CoreNLP 確定文本中的依賴關系,將每個單詞設置為圖節點, 節點與節點之間是否存在連邊取決于它們是否有語義依賴關系。使用 Bi-GRU 模型提取每個單詞的特征。矩陣表示邊的權重,矩陣表示節點的鄰接矩陣。節點與節點之間的相似矩陣為:
其中,表示第個節點和第個節點之間的相似性,?和為節點的特征向量。通過相似矩陣與鄰接矩陣的Hadamard積得到權重矩陣,然后進行歸化:
圖像構建圖: 根據 Faster R-CNN 提取圖像的顯著區域, 并表示成特征向量。將每個圖像表示為無向全連接圖,圖中節點為 Faster R-CNN 提取到的顯著區域,每個節點與所有其他節點關聯,利用極坐標對圖像的空間關系進行建模。為了獲得全連接圖中邊的權重,基于成對顯著區域的邊界框的中心點計算極坐標?,并將邊的權重矩陣?設置為成對極坐標。為了判斷文本圖和視覺圖的對應關系,首先進行節點級匹配,即將每個節點與另一個模態圖中的節點相關聯,學習節點對應關系。然后通過將關聯節點傳播到鄰居節點來進行結構級匹配,學習短語對應關系,從而共同推斷出對象、關系和屬性的細粒度對應關系。
節點級匹配:首先計算視覺節點和文本節點之間的相似性,表示為?然后沿著視覺軸計算softmax函數,得到視覺節點與每個文本節點的對應關系。
其中,?為文本圖的節點特征矩陣,?為視覺圖的節點特征矩陣。類比于 BERT 的 multi-head 注意力機制,文章提出一個多塊模塊,以計算文本節點和加權后的視覺節點的逐塊相似性。
將第個文本節點的特征及其對應的加權視覺節點特征劃分為? 個塊,分別表示為? 和?,然后計算對應塊的相似性?。第個文本節點的匹配向量可以通過連接所有塊的相似性來獲得:
“?”表示拼接操作。同樣的,計算文本節點與每個視覺節點的對應關系:
然后由多塊模塊對每個視覺節點及其關聯的文本節點進行處理,生成匹配向量?。
結構級匹配:結構級匹配將節點級匹配向量作為輸入,并將這些向量與圖的邊一起傳播到相鄰的節點。通過使用GCN對鄰域匹配向量進行加和來更新每個節點的匹配向量。
GCN層將應用個內核學習每個節點的匹配向量。最后,根據匹配向量推斷出圖像到文本和文本到圖像的匹配分數:
圖像-文本對的整體匹配得分為兩個方向上的匹配得分之和:
3
多模態BERT
BERT模型憑借著Transformer強大的特征學習能力以及通過掩碼語言模型實現的雙向編碼,大幅地提高了各項NLP任務的基準表現。鑒于其強大的學習能力,2019年開始逐漸被用到多模態領域。其在多模態領域的相關研究主要分為兩個流派:一個是單流模型,即文本信息和視覺信息在一開始便進行了融合;另一個是雙流模型,即文本信息和視覺信息一開始先經過兩個獨立的編碼模塊,然后再通過互相的注意力機制來實現不同模態信息的融合。下面介紹一些這方面的工作。
3.1
單流模型
單流模型的代表工作有:VisualBERT[17],Unicoder-VL[18],VL-BERT[19]。
VisualBERT[17]和BERT類似,在結構上采用了堆疊的 Transformer。其在一開始就將文字和圖片信息通過 Transformer 的自注意力機制進行對齊融合。文字部分的輸入為原始的BERT文字輸入(詞向量+位置編碼+片段編碼)加上Token/Image編碼來表示其是圖片或文字,圖片部分的輸入則是采用通過Faster R-CNN提取的圖片區域特征加上相應的位置編碼,片段編碼和 Token/Image 編碼。VisualBERT遵循和BERT一樣的流程,先進行預訓練,然后在相應的任務上進行微調。它采用了兩個預訓練任務:第一個是和BERT一樣的語言掩碼,第二個是文本-圖像預測(即判斷輸入的文本是否為相應圖片的描述)。VisualBERT在VQA、VCR、NLVR2和Flickr30k四個視覺語言任務上都達到了最好的表現。
Unicoder-VL[18]模型(如圖3所示)在結構上與VisualBERT非常相似,其與 VisualBERT最大的不同在于該模型在輸入端對圖像的處理。在圖像的輸入上,它首先通過Faster R-CNN提取區域圖像特征,然后將該特征與區域圖像在圖像中的位置編碼進行拼接,再經過一個連接層投影到與語言輸入維度相同的空間。該模型在三個任務上進行了預訓練,前兩個與VisualBERT的預訓練任務相同,第三個任務為圖像標簽預測,即預測區域圖像所屬物體類別。
圖3 Unicoder-VL模型
VL-BERT[19](如圖4所示)在結構上依然采用堆疊的Transformer。圖像端的輸入由以下幾個編碼的加和構成:a. Faster R-CNN提取的區域圖像特征和該區域在原圖像中位置信息的拼接;b. 位置編碼;c. 片段編碼;d. [IMG] 編碼。在文字端該模型的輸入為正常BERT文字輸入和整個圖像特征的加和。該模型在三個任務上進行了預訓練,分別為:語言掩碼、圖像標簽分類和語言圖像匹配任務。
圖4 VL-BERT模型
3.2
雙流模型
雙流模型的代表工作有:ViLBERT[20], LXMERT[21]。
基于雙流的ViLBERT[20],在一開始并未直接對語言信息和圖片信息進行融合,而是先各自經過Transformer的編碼器進行編碼。分流設計是基于這樣一個假設,即語言的理解本身比圖像復雜,而且圖像的輸入本身就是經過Faster R-CNN提取的較高層次的特征,因此兩者所需要的編碼深度應該是不一樣的。當兩種模態各自進行編碼后,其輸出會經過一個共注意力機制模塊(如圖5所示)。該模塊也是基于Transformer的結構,只是在自注意力機制中每個模塊都用自己的Query去和另一模塊的Value和Key計算注意力,由此來融合不同模塊間的信息。該模型在兩個任務上進行了預訓練。第一個任務是掩碼任務,其中語言端和 BERT的語言掩碼任務一樣,圖像端任務的目標是當區域圖像被掩蓋后,模型對其輸出的分類分布能夠盡可能與用來提取區域特征的模型(這里是Faster R-CNN)的輸出分布一致,因此文章使用KL散度作為目標函數;第二個任務是常規的語言圖像匹配任務。
圖5 基于Transformer的共注意力模塊
LXMERT[21]模型(如圖6所示)與ViLBERT一樣采用了雙流模型,語言與圖像在一開始先各自經過獨立的編碼層進行編碼,然后再經過一個模態交互編碼層進行語言與圖像在語義上的對齊和融合。在交互編碼層中,該模型同樣也是使用共注意力機制,即自注意力中的Query來自一個模態,而Key和Value來自另一個模態。該編碼層過后,圖像與語言各自又經過一層自注意力層進一步提取高層特征。該模型的輸出有三個部分,一個是語言端的輸出,一個是圖像端的輸出,一個是多模態的輸出。該模型在預訓練時使用了四個任務:語言掩碼任務、圖像掩碼任務(該任務有兩部分,第一部分為預測被掩圖像物體類別;第二部分為ROI 特征回歸任務,該任務使用L2損失函數)、語言圖像匹配任務和圖像問答任務。
圖6 LXMERT模型
4
總結
本文主要介紹了圖文匹配任務及其常用的一些方法,圖文匹配任務的核心在于如何更好的融合圖像和文本的特征。隨著BERT預訓練模型在多模態領域的廣泛應用,未來多模態預訓練模型將會是解決多模態任務的重要方向。
參考文獻
[1] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[3] Tan M, Le Q V. Efficientnet: Rethinking model scaling for convolutional neural networks[J]. arXiv preprint arXiv:1905.11946, 2019.
[4] Hochreiter, S, and J. Schmidhuber. “Long short-term memory.” Neural Computation 9.8(1997):1735-1780.
[5] Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014.
[6] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[7] Kiros, R., Salakhutdinov, R., Zemel, R.S.: Unifying visual-semantic embeddings with multimodal neural language models. arXiv preprint arXiv:1411.2539 (2014)
[8] Faghri, F., Fleet, D.J., Kiros, J.R., Fidler, S.: VSE++: Improved visual-semantic embeddings. arXiv preprint arXiv:1707.05612 (2017)
[9] Wang, L., Li, Y., Lazebnik, S.: Learning deep structure-preserving image-text embeddings. In: CVPR (2016)
[10] Peng, Y., Qi, J., Yuan, Y.: CM-GANs: Cross-modal generative adversarial networks for common representation learning. arXiv preprint arXiv:1710.05106 (2017)
[11] Gu, J., Cai, J., Joty, S., Niu, L., Wang, G.: Look, imagine and match: Improving textual-visual cross-modal retrieval with generative models. In: CVPR (2018)
[12] Lee K H, Chen X, Hua G, et al. Stacked Cross Attention for Image-Text Matching[C]//European Conference on Computer Vision (ECCV). 2018.
[13] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Annual Conference on Neural Information Processing Systems (NeurIPS). 2015: 91-99.
[14] Yaxiong Wang, Hao Yang, Xueming Qian, Lin Ma, Jing Lu, Biao Li, and Xin Fan. Position focused attention network for image-text matching. arXiv preprint arXiv:1907.09748,2019.
[15] Liu C, Mao Z, Liu A A, et al. Focus your attention: A bidirectional focal attention network for image-text matching[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 3-11.
[16] Liu C, Mao Z, Zhang T, et al. Graph Structured Network for Image-Text Matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10921-10930.
[17] Li L H, Yatskar M, Yin D, et al. Visualbert: A simple and performant baseline for vision and language[J]. arXiv preprint arXiv:1908.03557, 2019.
[18] Li G, Duan N, Fang Y, et al. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training[C]//AAAI. 2020: 11336-11344.
[19] Su W, Zhu X, Cao Y, et al. Vl-bert: Pre-training of generic visual-linguistic representations[J]. arXiv preprint arXiv:1908.08530, 2019.
[20] Lu J, Batra D, Parikh D, et al. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems. 2019: 13-23.
[21] Tan H, Bansal M. Lxmert: Learning cross-modality encoder representations from transformers[J]. arXiv preprint arXiv:1908.07490, 2019.
總結
以上是生活随笔為你收集整理的给定的 columnmapping 与源或目标中的任意列均不匹配_闻歌研究 | 图文自动匹配任务研究调研...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 装配图中齿轮的画法_春季高考机械专业中机
- 下一篇: 机械加工工艺师手册_机械加工工艺师——机