CIKM 2021 | 基于异质图学习的搜索广告关键词推荐
丨目錄:
- 摘要
- 背景
- 問題定義
- 方法
- 在離線實驗
- 結語
- 相關文獻
??摘要
近年來,在線廣告在消費者側的大量工作受到了廣泛關注,對廣告平臺來說,廣告主營銷優(yōu)化工作在廣告系統(tǒng)中也扮演著非常重要的角色。對于搜索廣告,關鍵詞推薦(Keyword Recommendation)就是其中一個面向廣告主的核心推薦服務。本篇文章主要介紹阿里媽媽客戶增長團隊在直通車關鍵詞推薦任務上遇到的挑戰(zhàn)與解法——基于異質圖學習的關鍵詞召回模型 HetMatch。該項工作論文發(fā)表在 CIKM 2021 ,歡迎交流討論。
論文下載:https://arxiv.org/abs/2111.00926
??背景
搜索廣告是在線廣告的主要模式之一,廣告主通過對關鍵詞競價來獲得所需的廣告曝光和流量。在直通車,數(shù)百萬廣告主每天會手動添加上千萬的關鍵詞,這體現(xiàn)了廣告商的強大的營銷意愿。然而,相比如此強烈的意愿,很多廣告主由于缺乏專業(yè)知識來選擇合適的關鍵字而難以獲得期待的投放效果。以往的研究表明,許多廣告主傾向于對少數(shù)熱門關鍵詞競價,這使得一些沒有競價優(yōu)勢的廣告主更難獲得展現(xiàn)。這類問題同樣發(fā)生在直通車,其中只有不到10%的自選關鍵字可以在第二天獲得曝光。為了提高廣告主的營銷效率,現(xiàn)在許多搜索廣告平臺會向廣告主提供不同基于關鍵字推薦的營銷工具,如關鍵詞建議工具,關鍵詞智能采買工具等。
和其他推薦類任務一樣,關鍵詞推薦任務可以采用召回到排序的級聯(lián)結構。召回階段負責對給定廣告檢索千級別的關鍵詞;排序階段則是對召回結果基于預估效果(如點擊、成交等)進行排序。在本項工作中,我們旨在優(yōu)化關鍵詞召回問題,它作為整個推薦鏈路的前哨,對后續(xù)的推詞質量起著決定性的作用。已有的關鍵詞召回或檢索工作主要包含基于文本匹配、協(xié)同過濾和主題聚類的方法。但這些方法存在如下問題:1)這些方法忽略了在廣告和關鍵詞背后豐富的異質行為關系;2)它們忽視了對新廣告的冷啟動問題。
為了解決推薦中的召回問題,學界和工業(yè)界多年來已經(jīng)探索了不同類型的方法。近來,在推薦方案中已經(jīng)廣泛研究了基于表示學習的方法,在召回任務上取得了不錯的表現(xiàn)。這些方法旨在將異構信息網(wǎng)絡中具有不同類型特征的每個節(jié)點表示為低維表示向量,期望相似的源節(jié)點和目標節(jié)點具有相似的表示向量。其中,基于圖神經(jīng)網(wǎng)絡(GNN)的方法受益于其融合來自網(wǎng)絡中不同距離的鄰居的相關信息的強大能力,從而在召回任務中實現(xiàn)了先進的效果表現(xiàn)[1]。但是,在現(xiàn)有推薦方案中,常用的基于 metapath 的 GNN 召回方法由于雙塔兩側不一致的 metapath、網(wǎng)絡結構和特征類型,導致異質節(jié)點之間的向量匹配相比于同質節(jié)點多的向量匹配更具難度。另一方面,現(xiàn)有在 GNN 上的一系列工作表明網(wǎng)絡中的噪聲信息會降低 GNN 模型的效果表現(xiàn),而在超大規(guī)模的異質信息網(wǎng)絡中這樣的噪聲信息更是隨處可見,如何有效地去除這些噪聲信息的影響也十分重要[2]。最后,“冷啟動”能力是衡量推薦系統(tǒng)效果的重要維度,而廣告主側的冷啟動關鍵詞推薦相比于用戶側的推薦擁有自身的場景特點。例如,廣告主建立一個新的 ad 時,ad 對應的商品往往有前置行為數(shù)據(jù)(如點擊),且廣告主在建立 ad 時也會根據(jù)以往營銷經(jīng)驗為該 ad 選擇合適的關鍵詞,有效利用這些前置信息能提高 ad 的冷啟動能力。
為了應對這些挑戰(zhàn),我們提出了 HetMatch,一種基于異質圖神經(jīng)網(wǎng)絡(HGNN)的關鍵詞推薦模型。通過引入多層次的 GNN 結構,HetMatch 能在微觀和宏觀層面融合和增強不同類型的輔助關系信息,以更全面和魯棒地對廣告和詞進行表征。此外針對冷啟動問題,我們采用了多視圖框架,使模型能通過多視圖任務引入額外的新廣告樣本。我們通過直通車的工業(yè)數(shù)據(jù)集離線驗證了 HetMatch 的有效性,并在直通車多個關鍵詞推薦工具上進行了 AB 實驗,多個業(yè)務指標(如消耗與采納率)相比于基準算法都有顯著提升。目前該模型已在直通車全量部署,服務于多個關鍵詞推薦工具。
??問題定義
異質信息網(wǎng)絡(HIN):我們基于直通車的 ad、item 和 query 可以構建異質信息網(wǎng)絡 ,包含一個節(jié)點集合 和關系集合 ,以及它們對應的節(jié)點類型映射函數(shù) 和關系類型映射函數(shù) 來關聯(lián)到各自對應的類型。此外,不同類型的節(jié)點會有各自的 id 和屬性特征,我們使用 表示節(jié)點 v 的特征向量。
更具體來說,在關鍵詞推薦這一任務中,我們考慮 ad,item 和 query 三種節(jié)點,整個節(jié)點集合可以被表示為 。這三種節(jié)點之間也存在復雜的關系類型,例如 query 和 ad、item 的點擊關系,以及 item 和 item、ad 的 coclick 關系等。類似于 HAN,metapath2vec,我們基于不同 metapath (由首尾相接的關系類型序列)來建模不同關系下的高階鄰居特征。
圖一:廣告和搜索場景中的不同關系類型基于異質信息網(wǎng)絡的ad-keyword召回問題: 圈定廣告集合,我們的任務目標是最大化整體的topK召回率:。其中,表示廣告召回的topK個關鍵詞的集合,表示目標有效果的關鍵詞集合。另外,我們會把的召回集合限定在一定的候選集合內,保證召回的關鍵詞具有和廣告相同的(預測)類目。
??方法
在這一部分中,我們將介紹用于關鍵詞召回任務的 HetMatch 模型。我們的模型遵循層次化的信息融合關系:節(jié)點級別特征融合→子圖級別的特征融合→基于孿生匹配的信息融合→基于 multi-view 的特征映射。
圖二:HetMatch模型結構節(jié)點級別的特征融合
首先我們將每個節(jié)點的特征編碼成一個固定維數(shù)的向量。這些特征包括離散型特征和連續(xù)型特征。對于連續(xù)性特征,我們取其特征分布的 N 分位數(shù)轉換其為離散特征。在轉換完成后我們使用和節(jié)點類型相關的神經(jīng)網(wǎng)絡 獲得節(jié)點級別的表示向量 。
子圖級別的特征融合
Metapath: 我們定義了兩組 metapath 來捕捉不同類型的語義關系,一組是基于采買關系,另一組是基于 item 橋接關系。
(1)采買關系: 基于采買關系的子圖包含廣告主采買的ad和 keyword 關系,這類 metapath 可以直接刻畫圍繞詞和廣告的競爭環(huán)境,即不同ad如何對同一個 keyword 感興趣以及不同 keyword 如何被相似 ad 競價,我們用以下四種基于用戶點擊和廣告主采買的 metapath 來進行這類環(huán)境的刻畫:
其中用戶點擊關系可以反映能給廣告主直接帶來點擊收益的采買;而一般的采買關系主要用來對冷啟動ad進行鄰居關系的補充。
(2)基于item橋接的關系: 有時用戶會在同一 pv 中點擊 ad 和 item。這類行為可以在 ad 和 item 之間建立橋梁,有助于捕獲更豐富的上下文信息。此外,這些 co-click 的 item 還能提供與 ad 和 query 相似的文本內容和用戶行為模式,作為鄰居引入可以豐富中心節(jié)點的表征。
降噪圖卷積: GNN 的核心在于通過迭代地聚合鄰居的信息,來捕獲高階的特征表示。然而,在通過 GNN 引入高階鄰居信息的同時,訓練不充分的節(jié)點表征、用戶的隨機點擊行為也帶來了噪聲信號,影響模型表現(xiàn)。為了減少噪聲信號對訓練結果的影響,我們設計了一種帶有 autoencoder 的圖卷積網(wǎng)絡。在原有 GraphSage 的基礎上,它將其聚合函數(shù)實例化為一個 autoencoder,將原有鄰居信息通過編碼器降維壓縮減少噪聲信息的影響,并通過解碼器恢復到原來的維度,濾除噪聲信號。具體的卷積方式如下:
其中 表示中心節(jié)點的投影函數(shù),g 表示降噪網(wǎng)絡, 分別為參數(shù)矩陣,為了進行信息壓縮,我們令 。此外,為了避免隨機采樣引入過多隨機采買行為,我們根據(jù)實際點擊行為進行 topK 采樣。
語義融合層: 最后我們將不同 metapath 融合得到的 embedding 通過語義融合層進行融合。我們將語義融合層實例化為了 HAN 中使用的 self-attention 層。
孿生匹配
通常在獲得語義表征層后,模型會直接計算點積分數(shù)并計算 loss 進行優(yōu)化。在該步驟之前,我們將引入一種孿生匹配網(wǎng)絡,來緩解異構圖匹配問題中由于不同類型節(jié)點的模型參數(shù)和 metapath 定義不同,導致 ad 和 keyword 的表征難以分布在同一空間的問題。為了解決這一問題,我們將 ad 和 keyword 的匹配問題改為同構超節(jié)點(meta node)的匹配問題,即兩組 ad-keyword pair 之間的匹配,保證匹配左右兩端結構的同質性。對于 ad 側,我們通過計算得到 ad 側的 embedding,以及和 ad 最為相關的 topK 個 keyword 的 embedding 的均值,求和后通過線性變換得到最終的 embedding;keyword 側的作法也類似。更通俗地說,我們將 ad 及其關聯(lián)最緊密的 keyword 鄰居與 keyword 及其關聯(lián)最緊密的 ad 鄰居進行匹配。
multi-view 學習和view轉換
為了提高冷啟動 ad 的效果,相比于以前只基于點擊關系建立學習目標,我們引入了多種類型的 ad-keyword 的關系作為我們的優(yōu)化目標。具體來說,我們選取 ad-keyword 點擊關系,采買關系和 ad 背后的商品(item)和 keyword 的點擊關系進行建模。考慮到不同 view 下標簽分布存在較大的差異,不適合混合不同的標簽進行學習,我們設計了一種高效的 multi-view 結構。即在利用 GNN 獲得共享表征的基礎上,針對 ad 側不同的視圖任務使用不同的神經(jīng)網(wǎng)絡進行分布調整,而 keyword 側只學習一份 embedding。我們使用 sampled softmax loss 進行任務優(yōu)化,其基本思想為最大化正樣本點積的同時最小化不相關的 ad-keyword 對。
??在離線實驗
我們在搜索廣告生產(chǎn)數(shù)據(jù)集上進行了離線實驗,對比的方法包括 term-match,DSSM,HAN 和 IntentGC。實驗結果顯示,HetMatch 可以一致地提升不同召回詞數(shù)下的表現(xiàn),以及冷啟動場景下的表現(xiàn)。此外,我們也進行了 Ablation Study 分析每個模塊的效果。
在此基礎上,我們也進一步將我們的模型部署到直通車關鍵詞產(chǎn)品的推詞流程中。通過在關鍵詞建議工具的推詞流程引入 HetMatch 召回通道,工具采納率提升了4.19%,此外,采納關鍵詞的點擊數(shù)也提升了5.35%。對于智能買詞工具,相比于線上部署的 graphsage 召回模型,HetMatch 在每日加詞任務中能提升10.89%的消耗。
??結語
本項工作中,我們基于圍繞關鍵詞和商品的超大規(guī)模異質網(wǎng)絡進行了關鍵詞召回任務的探索。在未來工作中,我們將探索邁向更大的圖網(wǎng)絡,通過考慮更豐富的節(jié)點類型和屬性信息來更好地對廣告與關鍵詞進行建模。此外,HetMatch 仍然主要依賴于較簡單的分詞 id 特征進行文本建模,考慮到基于 transformer 的語言模型在不同文本任務上的出色表現(xiàn),結合 GNN 和 transformer 來進一步提升關鍵詞推薦質量也是我們未來的工作方向。
相關文獻
[1] Wu, Shiwen, Fei Sun, Wentao Zhang, and Bin Cui. "Graph neural networks in recommender systems: a survey." arXiv preprint arXiv:2011.02260 (2020).
[2] Xu, Jiarong, Yang Yang, Chunping Wang, Zongtao Liu, Jing Zhang, Lei Chen, and Jiangang Lu. "Robust Network Enhancement from Flawed Networks." IEEE Transactions on Knowledge and Data Engineering (2020).
END
也許你還想看
丨CIKM 2021 | 圖模型在廣告檢索(Ad Retrieval)中的應用
丨CIKM 2021 | 多場景下的星型CTR預估模型STAR
丨CIKM 2021 | AutoHERI: 基于層次表示自動聚合的 CVR 預估模型
丨2篇CIKM詳解阿里媽媽搜索廣告CTR模型如何低碳瘦身
丨CIKM 2021 | BH:面向Web級應用的基于二進制碼的Hash Embedding
丨CIKM 2021 | AMTL:設計孿生掩碼層高效學習維度自適應的Embedding
瘋狂暗示↓↓↓↓↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的CIKM 2021 | 基于异质图学习的搜索广告关键词推荐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CIKM 2021 | 图模型在广告检索
- 下一篇: 广告深度学习计算:异构硬件加速实践