浅谈 CTR 预估模型发展史
?PaperWeekly 原創(chuàng) ·?作者|Zhang
學校|上海交通大學碩士生
研究方向|深度學習、自然語言處理
背景介紹
Click Through Rate (CTR) Prediction 是一項非常重要的工業(yè)任務(wù),例如計算廣告中、推薦系統(tǒng)中的應(yīng)用。計算廣告中需要根據(jù) CTR 的預(yù)估來進行競價,有的推薦系統(tǒng)則基于 CTR 進行排序。
CTR 預(yù)測即給定一個用戶/物品(廣告)對,預(yù)測用戶點擊該物品的概率。其中輸入的特征往往包括連續(xù)特征(年齡)和枚舉特征(性別、地區(qū)),即 continuous field 和 categorical field。其中枚舉特征還分為單一取值的特征(如性別)和多取值的特征(如購買記錄)。
一般先用 one-hot 或 multi-hot encoding 的方式編碼枚舉特征,之后在很多模型中都會通過 embedding layer 再將它映射成 dense feature。最后根據(jù)這些處理過的 feature 來預(yù)測用戶點擊該物品的概率。
模型發(fā)展史
傳統(tǒng)的模型有:LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。
2.1 2016年
最簡單的基于 deep learning 的模型設(shè)計,例如 Deep Learning over Multi-field Categorical Data (DNN) 直接將 dense feature的concatenation 作為輸入,在其上疊加多層的神經(jīng)網(wǎng)絡(luò)直接預(yù)測 CTR。
該文提出 FM supported 和 sampling based NN 兩種具體實現(xiàn)方式,分別通過? FM、基于負采樣的 DAE/RBM 預(yù)訓練得到 embedding 的初始化值,以及通過使用 RBM contrastive divergence 預(yù)訓練來初始化上層的神經(jīng)網(wǎng)絡(luò)參數(shù);最后通過 fine-tune 的方式訓練最終模型。
不同于上述模型完全依賴神經(jīng)網(wǎng)絡(luò)(如果不考慮預(yù)訓練的作用)來學習不同 feature 之間的交互關(guān)系,另一類模型既顯式地建模 feature 之間的低階交互關(guān)系,又同時借助神經(jīng)網(wǎng)絡(luò)來建模高階交互關(guān)系。
比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之間通過內(nèi)積、外積的方式計算二階交互特征,最后將原始的一階和交互的二階特征相加輸入神經(jīng)網(wǎng)絡(luò)。
Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一階 feature 和通過手動設(shè)計 cross product transformation 得到的二階 feature,通過 linear model 進行預(yù)測。
deep model 則直接從一階 feature 出發(fā)疊加神經(jīng)網(wǎng)絡(luò);最終將 Wide&Deep 兩個模型 joint learning 訓練。
2.2 2017年
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中結(jié)合使用了 FM 和 DNN,其中 DNN 的輸入共享使用了 FM 中的 latent vector,最終結(jié)合兩部分的 feature 進行最終預(yù)測。
Deep & Cross Network for Ad Click Predictions (Deep&Cross)中從 embedding layer 出發(fā)并行地搭建一個 cross network、一個 DNN,最終合并兩個分支的 feature 進行最終預(yù)測。
其中 cross network 顯式地建模了高階(對應(yīng) cross network 的層數(shù),不同于其他模型設(shè)計中只有二階的顯式交互設(shè)計)的 feature 交互。
Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基礎(chǔ)上,通過 attention 的機制給不同的二階交互項加上權(quán)重、以及對 latent vector 的 Hadamard product 的不同 bit 進行加權(quán)求和:
其中 attention score 根據(jù) 、 的 Hadamard product 來計算。
Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN,將 FM 中原有的 latent vector 內(nèi)積項:
替換為通過 Bi-Interaction Layer(如下圖)+NN 建模的 feature 交互特征。
2.3 2018年
FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同樣考慮了不同二階交互特征對于最終預(yù)測的貢獻度不同,因此在 FM 的二階交互項中加入了權(quán)重系數(shù),相比 FFM 減少了大量參數(shù):
xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同樣顯式地建模了高階的 feature 交互,進一步改進了 Cross Network,提出 Compressed Interaction Network,模型表達能力更強。
并且將 Cross Network 中 bit-wise 的交互方式(意味著同一個 feature embedding 的不同 bit 之間也會進行交互)改為 vector-wise 的交互方式。模型整體結(jié)構(gòu)和 DeepFM 相同,將 FM 的部分替換為 CIN。
Deep Interest Network for Click-Through Rate Prediction (DIN) 在對 user behavior 的 feature(用戶歷史行為)處理中,區(qū)別于傳統(tǒng)的 average pooling 或 concatenation 的方式,考慮到了每個 behavior 的參考價值與具體的待預(yù)測目標有關(guān)。
因此通過 attention 的方式進行了加權(quán)求和來建模 user interest:
Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN)?進一步關(guān)注了 user interest 隨時間變化的特點。模型主要包括一個 interest extractor layer、一個 interest evolving layer,都是基于 GRU 的結(jié)構(gòu),在 user behavior 的時間序列上學習。
其中 interest evolving layer 的輸入為 interest extractor layer 中對應(yīng)時間步的隱藏層 ,并且由 和待預(yù)測物體的特征 計算得出 attention 來作為 update gate 的權(quán)重。
2.4 2019年
Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中則關(guān)注到用戶的歷史行為、用戶興趣的時間序列可分為不同的 session,session 內(nèi)的行為比較 homogeneous,而不同 session 間則更heterogeneous。
因此對 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。
FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于? Squeeze-and-Excitation 的 feature importance 計算方法以及 bilinear 的 feature 交互方法。
其中關(guān)于 bilinear interaction,新提出了雜交 Hadamard product 和 inner Product 的表達方式,例如:
最終得出的二階交互特征替換 FM 模型中的二階交互項。
AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 來建模 feature 交互。
2.5 2020年
FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一種參數(shù)少、計算量小、適合工業(yè)化應(yīng)用的模型,其中 feature 交互的部分結(jié)合了 intra/inter feature 的交互。最終用 field-wise bi-interaction module 得到的二階特征 +DNN 學到的特征進行預(yù)測。
A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM)? 在 DeepFwFM 的基礎(chǔ)上進行了 structural pruning,大大減少模型參數(shù)以符合線上運行的需求,并且使模型的 ensemble 成為可能。
研究方向
feature interaction 的方式
只包含低階(二階)的特征交互,比如 FM、AFM、FFM、FwFM。
完全依賴深度學習來建模高階的交互特征,比如 DNN、AutoInt。
結(jié)合顯式的低階特征交互建模和基于深度學習的高階特征建模,比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 顯式建模了高于二階的交互特征。
依據(jù)用戶的歷史行為以及待估計的對象研究用戶的興趣,比如 DIN、DIEN、DSIN。
簡化模型、工業(yè)應(yīng)用,比如 FwFM、FLEN、Sparse DeepFwFM。
其他還有推薦系統(tǒng)中基于 CTR 的模型,例如 RippleNet [7],利用了用戶和物品由點擊歷史構(gòu)成的 graph 以及 knowledge graph,將用戶興趣在合并的? graph 上“傳播”,類似于基于物體的協(xié)同過濾方法。
效果比較
主要根據(jù) AUC 和 logloss 來比較。在 Criteo 數(shù)據(jù)集上測試的模型較多,根據(jù) paper 各自匯報的結(jié)果,在 Criteo 上表現(xiàn)最好的是 Sparse DeepFwFM,其次是 xDeepFM、DeepFM。根據(jù) FLEN 自己在 Avazu 數(shù)據(jù)集上匯報的結(jié)果,FLEN 的優(yōu)于 xDeepFM。
參考文獻
[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads.?
[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines.?
[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches.?
[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook.?
[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction.?
[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.?
[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.
點擊以下標題查看更多往期內(nèi)容:?
變分推斷(Variational Inference)最新進展簡述
變分自編碼器VAE:原來是這么一回事
圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學習預(yù)訓練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的浅谈 CTR 预估模型发展史的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 火车站地图战略介绍特种部队
- 下一篇: 张召忠为什么叫张局座?