搜索推荐炼丹笔记:CVR预估中的延迟反馈问题
CVR預估中的延遲反饋問題
一元@煉丹筆記問題描述
在很多推薦搜索的建模中,我們經常會使用D+1天的數據作為label,從1~D天的數據中的進行特征抽取等工作,和我們時間序列問題建模類似,但和很多其他的時間序列問題建模不一樣的地方在于,我們的label不一定可靠,比如在傳統的時間序列回歸中,D+1天的銷量是多少就是多少,我們沒有太多的猶豫,因為不大會有其他的情況。但是在電商的問題中,就存在下面這種情況:
D+1天未購買可能并不一定是真正意義上的未購買,而可能是加入購物車或者意愿清單了, 只是沒有在當天下單, 而是過了一天在D+2天的時候下了單, 而這樣的標簽如果我們直接默認其為負樣本就會有較大的問題,因為它并不是真正意義上的負樣本,只是反饋延遲了。這在搜索推薦系統中,我們稱之為延遲反饋的問題。
問題嚴峻性
看到這么個描述,我們似乎有了一個直觀的理解,但是可能并不會過于重視,我們直觀感受是,是的,但是可能比例不會很高吧,有必要重視嗎?下面我們看一組數據:在Criteo公司早期,
- 有35%的商品會在點擊后一個小時內得到轉化;
- 有50%的商品會在點擊后24h內得到轉化;
- 有13%的商品會在點擊后2周之后才得到轉化。
這么看來問題還是十分嚴峻的,那么如何解決該問題呢?
Modelling Delayed Feedback in Display Ad
eCPM
這個問題較早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,當時神經網絡等還沒那么流行,但是解決的思路非常值得借鑒?在廣告推薦中,有一個指標價值是非常大的,eCPM=CPA?P(conversion,click)=CPA?P(click)?P(conversion|click),
- CPA: Cost per conversion, 廣告商愿意為每個轉化支付的金額, 如果eCPM高的話,意味著我們可能獲得更多的錢。
從上面這點可以看出,我們希望能很好地預估某個廣告的轉化概率(最終轉化即可,對應到下文P(C=1|X=x).
問題建模
變量定義
我們先定義五個變量,
假設
問題表示
損失函數 & 問題求解
損失函數:
問題求解:
我們的優化問題中,有兩個變量和,論文中提出了兩種求解方案,基于EM算法的求解以及基于梯度下降的策略。
小結
本文針對轉化回傳的延遲問題提出了一種新的建模方式,不把還沒觀察到轉化樣本直接當做負樣本處理,而是考慮其距離當前點擊發生的時間長短給予模型不同權重的梯度,在建模的時候考慮延遲轉化的時間信息,實驗的結果也驗證了該方案的有效性。當然直觀的看本文的方案,我們也可以看到本文的幾點不足,我們假設發生轉化的延遲時間為指數分布,這種假設可能還不夠寬泛;能否替換為其他的更好的函數值得考慮。
總結
以上是生活随笔為你收集整理的搜索推荐炼丹笔记:CVR预估中的延迟反馈问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Model Search:炼丹师最强危机
- 下一篇: 标签修正:CVR预估时间延迟问题