推荐系统炼丹笔记:RecSys2020-SSE-PT解锁序列数据挖掘新姿势
背景
現(xiàn)在諸多的推薦算法在處理時(shí)間信息上, 除了在自然語言常用的RNN,CNN等模型, 就是基于Transformer的模型,但是和SASRec類似, 效果不錯(cuò),但是缺少個(gè)性化,而且沒有加入基于個(gè)性化的用戶embedding。為了克服這種問題,本文提出來一種個(gè)性化的Transformer(SSE-PT),該方法相較于之前的方案提升了5%。
方案
模型框架
序列化推薦
個(gè)性化Transformer架構(gòu)
SSE-PT使用隨機(jī)共享embedding技術(shù),
1. Embedding 層
2. Transformer的Encoder
這一塊和之前的許多Transformer Encoder是類似的,所以此處我們跳過。
3. 預(yù)測(cè)層
4. 隨機(jī)共享Embedding
對(duì)于提出的SSE-PT算法最為重要的正則技術(shù)是SSE(Stochastic Shared Embedding), SSE的主要思想是在SGD過程中隨機(jī)地用另一個(gè)具有一定概率的Embedding來代替現(xiàn)在的Embedding,從而達(dá)到正則化嵌入層的效果。在沒有SSE的情況下,現(xiàn)有的所有正則化技術(shù),如層規(guī)范化、丟失和權(quán)重衰減等都會(huì)失效,不能很好地防止模型在引入用戶嵌入后的過擬合問題。
- SSE_PE: 以概率p均勻地使用另外一個(gè)embedding替代當(dāng)前的embedding;
在本文中,有三處不同的地方可以使用SSE-SE, 我們對(duì)輸入/輸出的用戶embedding, 輸入的商品embedding以及輸出的商品embedding分別以概率pu,pi,以及py進(jìn)行替換。
我們注意到輸入用戶embedding和輸出用戶embedding同時(shí)被SSE概率代替。經(jīng)驗(yàn)上,我們發(fā)現(xiàn)SSE-SE在用戶的embedding和輸出項(xiàng)的embedding總是有幫助的,但是SSE-SE到輸入項(xiàng)的embedding只有在平均序列長度較大時(shí)才有用,例如Movielens1M和Movielens10M都超過100。
處理長序列的SSE-PT++
實(shí)驗(yàn)
1. 效果比較
- SSE-PT算法在所有的4個(gè)數(shù)據(jù)集上的效果都好于其它的算法;
2. 正則化方案的比較
- SSE-SE+dropout+weight decay是正則化里面最好的。
3. 模型訓(xùn)練速度
- SSE-PT和SSE-PT++模型的訓(xùn)練速度與SASRec相當(dāng),其中SSE-PT++是速度最快、性能最好的模型。很明顯,使用相同的訓(xùn)練時(shí)間,我們的SSE-PT和SSE-PT++比我們的基準(zhǔn)SASRec取得了更好的排名性能.
4. 解耦研究
4.1 SSE概率
鑒于SSE正則化對(duì)于我們的SSE-PT模型的重要性,我們仔細(xì)檢查了輸入用戶嵌入的SSE概率。我們發(fā)現(xiàn)適當(dāng)?shù)某瑓?shù)SSE概率不是很敏感:在0.4到1.0之間的任何地方都能得到很好的結(jié)果,比參數(shù)共享和不使用SSE-SE要好。
4.2 采樣概率
- 當(dāng)最大長度相同時(shí),使用適當(dāng)?shù)某闃痈怕?#xff08;如0.2→0.3)將使其優(yōu)于SSE-PT。
4.3 Attention Block的個(gè)數(shù)
- 對(duì)于Movielens1M數(shù)據(jù)集,在B=4或5時(shí)達(dá)到最佳排序性能,對(duì)于Movielens10M數(shù)據(jù)集,在B=6時(shí)達(dá)到最佳排序性能
4.4 個(gè)性化以及負(fù)樣本的采樣個(gè)數(shù)
- 當(dāng)我們使用相同的正則化技術(shù)時(shí),個(gè)性化模型總是優(yōu)于非個(gè)性化模型。不管在評(píng)估過程中采樣了多少個(gè)負(fù)數(shù)或者使用了什么排名標(biāo)準(zhǔn),這都是正確的。
小結(jié)
在這篇論文中,作者提出了一個(gè)新的神經(jīng)網(wǎng)路架構(gòu)-Personal Transformer來解決時(shí)間協(xié)同排序問題。它擁有個(gè)性化模型的好處,比目前最好的個(gè)人用戶獲得更好的排名結(jié)果。通過研究推理過程中的注意機(jī)制,該模型比非個(gè)性化的深度學(xué)習(xí)模型更具解釋性,并且更傾向于關(guān)注長序列中的最近項(xiàng)目。
參考文獻(xiàn)
總結(jié)
以上是生活随笔為你收集整理的推荐系统炼丹笔记:RecSys2020-SSE-PT解锁序列数据挖掘新姿势的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统炼丹笔记:阿里DMIN多重兴趣网
- 下一篇: 推荐系统炼丹笔记:令人着迷的时间动态CF