一口气放出三篇SIGIR论文!详解阿里妈妈搜索广告CTR模型演进
歡迎關注:阿里媽媽技術公眾號
本文作者:石士 阿里媽媽技術團隊?
1 引子
點擊率預估(a.k.a. CTR模型)在搜索、推薦和廣告等互聯網應用中扮演了至關重要的角色。隨著深度學習技術的快速發展,CTR模型的演化方案層出不窮,學術屆與工業界的創新熱潮方興未艾。本文我們按照CTR模型的結構特點將優化方向進行歸類,簡要介紹下阿里媽媽搜索廣告在不同優化方向上做的一些有意思的工作。
CTR模型的整體結構從下往上可以分為3層:
1)Embedding Layers,這一層的作用是將類別型特征(包括數值型特征一般離散化為類別型特征)對應的高維空間映射到Embedding向量的低維空間;
2)Hidden Layers,這一層的作用是提供高度非線性的擬合能力;
3)Output Layers,這一層的作用是對任務的具體目標進行針對性表達。
?
不同層的優化路徑有顯著差異,這里給出整體分類框圖,圖中標記列舉了部分較為經典的創新解法。
我們在每一層的不同優化路徑上均有持續迭代,本文介紹的3篇SIGIR文章主要集中在Hidden Layers和Embedding Layers兩層。
1)Hidden Layers特點:傳統全連接層MLP雖然有萬能的擬合能力,但研究表明它的業務針對性較弱,通常需要有顯式的結構設計才能讓模型的學習更加聚焦。
2)Embedding Layers特點:大規模數據場景下建模的重中之重,該層參數規模幾乎決定了整體存儲規模,Embedding表征學習能力決定了模型預估能力的基本盤。
?
以下是3篇SIGIR文章的極簡概述:
GIN(SIGIR-2019):處在Hidden Layers - User Behavior Modeling 優化路徑上,文章提出了一種圖學習與CTR任務相結合的端到端建模方案,有利于用戶興趣探索和拓展。
Graph Intention Network for Click-through Rate Prediction in Sponsored Search
傳送門:https://arxiv.org/pdf/2103.16164.pdf
?
PCF(SIGIR-2021):處在Hidden Layers - Feature Interaction Modeling 優化路徑上,文章提出一種針對顯性交叉語義表征的預訓練圖學習方案,有利于CTR模型壓縮和泛化。
Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction
傳送門:https://arxiv.org/pdf/2105.07752.pdf
?
FSCD(SIGIR-2021):處在Embedding Layers 優化路徑上,文章提出了一種以算力因子為先驗、可自動學習的特征選擇方案,基于精排模型衍生出全新的粗排模型,使得效率和效果更加平衡。
Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach
傳送門:https://arxiv.org/pdf/2105.07706.pdf
?
2 GIN-精排模型-用戶行為時空建模
搜索場景下,消費者會通過搜索詞來主動表達自己的購物需求,但由于一方面移動端輸入query成本較高導致搜索詞的表達方式異常集中(top 5% query占比搜索流量80%),另一方面簡短的文本較難細致準確地表達清楚實際的搜索意圖,所以系統僅僅依靠顯性的搜索詞來理解用戶的搜索意圖是完全不夠的,搜索個性化技術是系統發展的必然趨勢,且值得持續優化。
用戶的搜索意圖除了顯性的搜索詞表達以外,還有極其豐富的隱性行為反饋,如何深入挖掘隱藏在用戶行為反饋信息背后的真實消費意圖,并且處理好兩者的交互關系是搜索個性化技術的核心要點。為了完整地刻畫上述信息交互關系,阿里媽媽搜索廣告在過去幾年的探索中在User Behavior Modeling方向基本確立了序建模(Sequence Learning)和圖建模(Graph Learning)相融合的模型框架。
序建模聚焦在用戶自身的歷史行為(私域行為),對于行為較為豐富的用戶而言,能夠充分挖掘其個性和差異化特點;圖建模利用群體行為互聯的結構(公域行為),借助群體智慧充分挖掘行為背后的共性和可遷移性特點,對于低活用戶和搜索新需求非常友好。
GIN就是我們在用戶行為時空建模方面的學術沉淀,相較傳統的時序建模對于低活用戶不友好和興趣泛化性欠佳的問題,我們對用戶歷史行為序列的每個對象借助Graph的空間拓撲結構進行往外興趣拓展,利用多層圖卷積的匯聚能力,使得用戶興趣表征的泛化能力更強。該方案在直通車場景全量上線,取得不錯的業務效果。
3 PCF-精排模型-顯性交叉語義建模
交叉特征對于點擊率預估模型而言至關重要,實際建模提效的過程會將交叉特征的設計分為兩類:1)隱式語義建模,兩個id特征共現交叉完對應的Embedding表征,例如<user_age,item_id>交叉特征對應的Embedding隱式語義向量;2)顯式語義建模,兩個id特征共現交叉完對應的歷史統計值等,例如<user_age,item_id>交叉特征對應的顯式統計歷史14天ctr。
現有大多數方法(例如DeepFM、DCN等)主要聚焦在前者,通過模型結構的設計來充分擬合隱式語義表征;但很少有工作會通過模型結構設計來處理后者,事實上顯式建模信號對CTR任務非常有效,是業界提效的“公開的秘密”。然而直接利用交叉特征的統計值作為顯性建模信號存在兩大挑戰:1)算法側泛化性能較差,交叉特征的統計值依賴歷史出現的共現特征,非共現特征表達無能為力;2)系統側存儲規模開銷巨大,存儲開銷對應特征笛卡爾積的量級,在線需要配備額外的分布式存儲引擎,通信時延又會進一步影響計算性能。
針對上述挑戰,我們提出一種基于預訓練圖神經網絡的交叉語義特征學習模型(PCF-GNN)。圖節點表示特征,邊表示交叉特征的歷史交互信息,通過鏈邊預測的方式擬合交互節點的邊權重信息,從而顯式建模交叉語義表征。我們在內部數據和外部公開數據上均進行了大量實驗,實驗結果表明該建模方案不僅可以大幅壓縮模型存儲規模,還能顯著提升模型的泛化能力,取得不錯的正向收益。
4 FSCD-粗排模型-效果與效率均衡的自動特征選擇方案
大規模搜索、推薦和廣告系統一般采用多階段級聯架構,包括召回、粗排、精排和重排等打分階段。其中粗排的角色非常關鍵,它起到承上啟下的作用。一方面面對上游多路召回需要有一個統一的打分排序準則,另一方面面對下游精排需要分擔計算壓力、做好精選候選集合的挑選助攻。所以如何在系統性能約束極強的環境下提供不俗的預估能力是粗排模型的挑戰。
傳統的粗排模型采用“Representation-focused architecture”(簡稱RF)的向量點積模型,它的優勢在于能夠高性能地處理較大規模候選集合。但是,它的預估能力相較精排模型的“Interaction-focused architecture”(簡稱IF)有很大的差距,即使采用精排對粗排的知識蒸餾模式,依然對粗排模型提升能力有限。我們認為交互特征和交互網絡的缺失,決定了向量點積模型的精度上限較低。這種模式過于關注計算性能的優化,而忽略了算法效果對于業務的影響,是否可以調節兩者失衡的狀態,通過犧牲不多的計算性能從而可以較大地提升算法效果?
粗排模型升級為“IF”結構是創新性的嘗試(同時期兄弟團隊定向廣告提出COLD架構),我們提出復用精排模型的數據鏈路,通過可學習的特征選擇方法(縮寫FSCD)在Embedding層對精排模型進行精簡,從而衍生出“IF”結構的粗排模型。該方案特點是通過引入算力因子,將效率作為先驗正則項,使得特征的重要性評估需要綜合考量效率與效果。
之所以從特征選擇的角度切入,主要有兩個原因:
1)大規模離散稀疏模型的參數主要集中在特征對應的Embedding層,Embedding層占據模型存儲規模的絕大部分;
2)特征計算也是在線預估必不可少的重要環節,隨著GPU的廣泛使用和深入優化,計算密集型的模型inference時延大幅降低,特征計算環節涉及到的CPU資源使用、內存帶寬消耗和計算時延均占據整體流程的比重越來越高(搜索廣告場景接近8成)。
所以合理的特征選擇會對在線系統性能帶來極大的改善,我們提出基于FSCD方法衍生出的粗排模型,比傳統向量點積模型更好地兼顧了效率與效果,已在阿里媽媽搜索廣告場景全量上線并取得顯著收益。
?
5 總結與展望
阿里媽媽搜索廣告算法團隊過去一年在Hidden Layers - Feature Interaction Modeling和Embedding Layers兩個優化路徑上持續迭代優化,支持業務高速發展的同時,我們也將相關技術進行學術沉淀。本文只是開胃菜,后續會推出詳情解讀版,感興趣的同學可以深入了解。另外,最近我們在Output Layers方向上也有不少有趣的探索,后續有機會再和大家分享。
?
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的一口气放出三篇SIGIR论文!详解阿里妈妈搜索广告CTR模型演进的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 久等了,「阿里妈妈技术」来啦!
- 下一篇: KDD2021 放榜,6 篇论文带你了解