淘宝视频的跨模态检索
針對上述技術挑戰,本文的算法模型設計結合圖神經網絡GraphSAGE[15]的雙塔檢索框架,該框架的優點:
通過圖網絡構建緩解訓練樣本稀疏和均衡問題。樣本1和樣本2有點擊Pairs標簽,樣本3和樣本2內容表達一致但沒有點擊Pairs標簽,在圖網絡中拉近樣本1和樣本3的特征距離來間接拉近樣本2和樣本3的特征距離。
圖網絡中同模態和跨模態端到端的度量學習進一步保證不同模態的語義一致性和同模態語義的判別性。
可以實現高效的大規模檢索。
該模型主要包括文本編碼模型、視頻多模態編碼模型、圖網絡算法模型、度量學習模型。
???文本編碼
文本編碼將主題標簽文本轉為定長實數向量,該向量能夠反映主題內容信息,與視頻編碼向量進行相似度計算。本文在實驗中嘗試過通用預訓練BERT、淘內預訓練RoBert、Transformer等結構,最后綜合考慮性能和效率采用了從頭開始訓練的6層Transformer結構。其首先對query進行分詞,每個分詞的word embedding初始參數隨機;分詞長度固定,不足補零,過長直接截斷;整個文本所有參數random初始化,和檢索模型一起端到端訓練參數更新。
???視頻編碼
視頻編碼模型主要是將視頻多模態數據轉化成反映視頻內容的特征向量。為了提升訓練效率,本文的視頻多模態表征向量采用淘內數據預訓練的視頻多模態預訓練模型離線提取的特征,嘗試的模型包括雙流網絡結構LXMERT[3,13]和單流網絡結構UniterVideo[4,5,14]。多模態模型輸入每個視頻幀提取的inception V4圖像特征以及視頻對應的描述信息,例如視頻標題,summary等信息,設計了4個task,Mask Language Model(MLM), Mask Region Model(MRM), Video Text Match(VTM)以及商品類目分類模型(CLS),整體模型結構如下。
LXMERT雙流架構
Uniter單流架構
???圖網絡模型
本文工作在經典雙塔模型的技術上嵌入GraphSAGE圖神經網絡模型,在大規模圖上學習結點embedding,集團的GraphLearning圖學習框架為本文的算法提供了框架基礎。整體的圖網絡學習框架如下,其中輸入特征分別來自文本編碼和視頻編碼的輸出特征。
-
大規模異構圖構建
建圖的合理性和準確性是影響圖結點特征學習的重要因素,從提升結點覆蓋率和構邊置信度兩個目標出發,本文采用先驗特征相似和后驗點擊行為對視頻和主題標簽構建圖網絡。
基于用戶點擊行為建圖
文本-視頻 異構圖:在云主題搜索、內容搜索、淘寶經驗、手淘搜索等搜索場景中用戶在主題標簽或query下掛的視頻列表中觸發的點擊行為作為文本-視頻異構構邊的依據。
文本-文本/視頻-視頻 同構圖:在云主題搜索、內容搜索、淘寶經驗、手淘搜索等搜索場景,同一用戶在同一query下點擊的視頻有高度相關的語義,同一用戶在聚合主題下點擊的外透視頻內容也十分類似,這些視頻兩兩構邊。同一視頻掛靠的主題標簽和搜索query也同理構邊。
基于語義相似度建圖
-
鄰結點采樣
圖結點鄰居采樣的方式常用包括:隨機采樣,隨機廣度采度,隨機游走采樣Random Walk。考慮到經典隨機游走算法對于度大節點的偏向性問題,本文采用修正改進版本的游走策略,降低度大節點的游走概率,?結點對鄰居結點采樣概率為:
其中,表示結點的鄰結點集,、分別表示結點和的度數。
-
特征聚合
在圖結點特征聚合上本文采用pooling聚合,先對每個鄰居結點上一層embedding進行非線性轉換,再按維度應用 max/mean pooling,捕獲鄰居集上的顯著特征以此表示目標結點embedding。具體pipeline如下:
在特征聚合策略上,考慮跨模態檢索的目的是實現不同模態數據在高維空間的語義對齊,消除數據模態差異的存在,因此本文根據聚合鄰結點的類型,嘗試采用實驗了三種不同的聚合策略:
同構聚合,目標結點只聚合同模態的鄰結點
異構聚合,目標結點只聚合不同模態的鄰結點
混合聚合,目標結點隨機聚合鄰結點
在第四小節的實驗對比可以看出同構聚合策略性能最佳。
???度量學習
-
正負樣本設置
跨模態訓練任務的視頻-文本異構正樣本通過異構邊直接獲取,異構負樣本的選擇采用自適應五元組損失AOQ Loss[16]采用Batch內在線難樣本挖掘Online Hard Sample和離線難樣本挖掘Offline Hard Sample選擇在線局部負樣本和離線全局負樣本。
單模態訓練任務的視頻-視頻、文本-文本的同構正樣本分別來自同構邊的一跳和二跳游走采樣鄰結點,負樣本在全圖進行隨機采樣。
-
目標優化函數
本文設計的損失函數包括兩部分:
同模態度量損失和有無邊二分類損失。同模態度量損失是距離約束,保證在高維度量空間拉近正樣本距離,拉遠負樣本對距離;有無邊二分類損失本質是根據圖的結構構建正負樣本的相關性約束。
跨模態自適應五元組度量損失。在線難樣本挖掘有兩個主要不足:
負樣本選擇策略具有局部性、"難度"不足;
對于正樣本對和負樣本對的懲罰力度一致,不同難度的樣本對應有不同的優化更新力度。
本文采用自適應五元組損失損失,自適應調整正樣本對、在線負樣本對、離線負樣本對的更新權重,達到在相似度方面正樣本對>在線負樣本對>離線負樣本對的目的。
損失公式表達:
同模態度量損失:
同模態有無邊二分類損失:
跨模態度量損失:
其中表示文本768維特征向量,表示視頻768維特征向量,表示文本正樣本,表示視頻正樣本,表示文本局部負樣本,表示視頻局部負樣本,表示文本全局負樣本,表示視頻全局負樣本,、為超參數,表示文本同構邊,?表示文本同構邊,?表示指示函數,表示距離間隔,表示負樣本數量。
-
訓練細節
整個檢索模型以端到端的方式進行訓練,訓練分兩輪。第一輪次訓練跨模態部分度量學習僅采用在線難挖掘損失,訓練優化過程進行學習率warm up。早期訓練容易出現模型崩塌現象,hard triplet loss促使各樣本點映射到同一個點,loss收斂到margin。為解決該問題FaceNet采用semi-hard triplet loss可以使模型訓練更加穩定、收斂更快,但達不到hard triplet loss的更優解。本文選擇在學習率warm up期間采用負樣本在線隨機采樣,模型訓練穩定之后采用在線難樣本挖掘訓練直到收斂。第一輪次訓練完成之后,訓練樣本進行全局語義檢索尋找全局難負樣本,構建五元組進行第二輪次訓練。
在原始訓練數據的基礎上,本文嘗試進一步采用半監督學習的方式進行訓練數據的擴量,訓練完成的模型在萬象城視頻庫召回更多的偽匹配樣本,訓練數據的擴量帶來更大的性能提升。
實驗
???度量學習
檢索衡量指標采用檢索召回準確率Top1,Top5,Top20?以及Mean Rank值。1K淘寶樣本對檢索性能如下。基于預訓練Roberta文本特征的視頻文本-標簽文本檢索方式與基于多模態特征的視頻多模態-標簽文本的檢索方式性能有明顯差距,視頻多模態信息的互補增益更好地實現淘寶視頻內容理解。視頻多模態-標簽文本的檢索方式在引入圖神經網絡算法后在Top1準確率上有超過9.0%的性能提升,圖結構信息的引入進一步提升了視頻和文本結點的語義表征能力。模型在度量學習上結合離線全局負樣本采樣和在線局部負樣本采樣的方式在Top1準確率上提升2.0%,采樣不同難度的負樣本使模型收斂到更優點。本文嘗試通過半監督的方式擴量訓練集召回更多偽匹配樣本,對模型性能有更佳的增益。
???公開數據集實驗
本文算法應用于MSCOCO Retrieval數據集做性能測試。MSCOCO Retrieval數據集的5K檢索任務性能結果對比如下,其中對比方法主要限定采用雙塔模型結構、特征提取無需模態間交互對齊計算、適用于大規模檢索的方法。本文工作達到了于同期前沿工作具有競爭力的性能。
???消融對比及可視化
-
聚合策略
圖結點表示的三種不同的聚合策略性能結果對比如表所示,本小節實驗結果在模型[Uniter | transformers | GNN]實現,檢索衡量指標同樣采用檢索召回準確率Top1,Top5,Top20?以及Mean Rank值。
異構聚合策略比同構聚合策略在Top1準確率跌落幾個百分點,存在的原因有:
圖網絡構建準確率還不夠高,采樣的異構結點與目標結點存在語義不配現象;
不同模態數據在聚合過程中非線性變換處理沒有根據模態差異設置不同的優化參數,目前采用的聚合過程的線性層采用共享參數。
-
樣本可視化
本文抽取部分測試樣本,模型提取文本特征和視頻特征并進行進行T-SNE處理可視化,如下圖所示,其中藍色表示文本樣本,紅色表示視頻樣本,可以看出同內容語義的文本視頻來高維空間得到很好的聚類效應,并且同其他不同內容語義的樣本保持一定間隔距離。GNN的引入使得同模態正樣本之間的距離更加拉近。
-
主題標簽召回示
主題標簽在千萬級首猜精品視頻池進行向量檢索,手淘全屏頁[3]主題標簽召回示例case:
討論和展望
本文對淘寶內容場景下的文本視頻跨模態檢索問題進行了研究和討論,指出跨模態檢索當前存在的訓練樣本稀疏均衡問題、跨模態度量學習的技術挑戰和高效檢索問題,并對此做出了深入分析,提出了結合GraphSAGE圖網絡算法的雙塔跨模態檢索模型,分別對同模態和跨模態進行多目標學習,保證同模態判 《一線大廠Java面試題解析+后端開發學習筆記+最新架構講解視頻+實戰項目源碼講義》無償開源 威信搜索公眾號【編程進階路】 別性的同時,實現跨模態特征的對齊,線下實驗驗證和業務評測驗證了本文算法有效性。本文對文本-視頻跨模態檢索技術的研究主要通過文本和視頻全局特征構建雙塔度量模型,后續會繼續深耕:
總結
以上是生活随笔為你收集整理的淘宝视频的跨模态检索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JVM调优:卡表(CardTable)简
- 下一篇: 新一代图片编解码技术在淘宝的应用及落地