快手-中科大最新研究:利用对话式推荐解决用户冷启动问题
推薦系統冷啟動通常分為三類,即用戶冷啟動、物品冷啟動還有系統冷啟動。無論那種冷啟動都因為只有較少的數據和特征來訓練模型,所有需要不同的技術方案來提升推薦效果。另外冷啟動結合產品方案可以加速冷啟動的過程。
其中用戶冷啟動的問題對于移動互聯網基于內容推薦產品中非常重要,不管是新產品還是體量很大的產品,都存在大量新用戶和低活用戶,即冷啟動用戶。這部分用戶是 DAU 增長的關鍵點,但這些用戶交互數據很少甚至沒有,如何快速找到這部分用戶的興趣,是用推薦系統需要解決的關鍵問題。
快手和中科大發表在 TOIS (ACM Transactions on Information Systems) 上的最新工作提出融合物品(視頻)和屬性的統一框架,用湯普森采樣結合對話式的方法為冷啟動用戶做推薦。對話式推薦能夠通過向用戶提問來快速獲得用戶興趣,而湯普森采樣能夠保持探索-利用的平衡,這兩點均有助于系統盡快地探索到冷啟動用戶的興趣并利用已有知識進行推薦。
論文標題:
Seamlessly Unifying Attributes and Items: Conversational Recommendation for Cold-Start Users
論文鏈接:
https://arxiv.org/abs/2005.12979
本文著重研究兩個關鍵點:
1. 如何做到探索-利用的平衡。在推薦系統中,探索(Exploration)是指去主動尋找未知的用戶潛在的興趣;利用(Exploitation)是指根據已有的經驗去估計用戶當前的興趣并做出推薦。由于缺乏用戶行為歷史數據,在為冷啟動用戶做推薦時保持探索和利用的平衡尤為重要——我們既要盡快探索用戶對不同商品的興趣,又要盡可能利用當前已經獲得的知識來做出合適的推薦。這樣才能盡可能吸引新用戶和低活用戶,并提高留存率。
2. 對話式推薦方法。對話式推薦在推薦系統領域近來得到廣泛的關注。對話式推薦系統中的“對話”模塊能夠直接向用戶提問,并期望通過用戶的回答顯式地獲得用戶的興趣。提問的形式可以多種多樣,本文考慮對物品的屬性進行提問。例如,在快手短視頻推薦的場景中,新用戶的應用主界面會收到一個彈窗。
彈窗中列舉了一系列短視頻類型(屬性標簽),并引導用戶去選擇自己喜歡的視頻類型。相比于間接地從歷史交互數據中進行推斷,這些主動選擇的屬性標簽可以為推薦系統提供更準確,更直接的用戶興趣信息,并幫助提供更好的推薦。在對話式推薦中,主要有三個核心的策略問題:(1)問什么問題;(2)推薦什么物品;(3)當前是問問題還是做推薦。
方法介紹
文章提出了一個統一的框架 ConTS,把物品和屬性建模到一個空間中,利用改進的湯普森采樣算法 [1] 保持探索和利用的平衡,并使用一個統一的打分函數來統一解決對話式推薦中的三個核心問題。
具體來說,文章研究用戶和推薦系統間的多輪對話推薦場景。首先用非冷啟動用戶的歷史交互數據去分布訓練一個 FM 模型,得到所有歷史用戶,物品和屬性的 embedding 并為冷啟動用戶做參數初始化。
在每輪對話開始之前,首先從一個多維高斯分布中進行采樣得到用戶當前的 embedding,利用得到的 embedding 和用戶當前已知喜歡的屬性對所有物品和屬性進行打分。
如果得分最高的是物品,就向用戶推薦分數最高的前 k 個物品;如果得分最高的是屬性,就向用戶詢問對于這個屬性的喜好。如果用戶拒絕了推薦的物品或者提問的屬性,在把拒絕的物品(屬性)從候選池中剔除后繼續對話過程。
如果用戶接受了推薦的物品,代表推薦成功并結束對話。如果用戶喜歡提問的屬性,那么記錄下該屬性,并把當前候選池中所有不含有該屬性標簽的物品剔除。此外,如果在超過一個最大對話輪數(如 15 輪)用戶還未獲得滿意的推薦,認為用戶會失去耐心并直接退出當前對話。
本文把對話式推薦中所有的物品和屬性進行統一建模,用一個相同的打分函數來決定所有的策略問題。實驗證明,這種統一建模的方式相比之前一些手動設置對話策略的工作(如 ConUCB [2])更加智能和魯棒。此外,我們在打分函數中引入了對用戶喜歡的屬性信息的建模,使得模型能夠更好地利用用在對話過程中直接獲得的用戶興趣。
下面的式子就是我們的打分函數,其中 是采樣得到的用戶 embedding, 是物品/屬性的 embedding, 是在對話中獲得的用戶喜歡的屬性集合, 是這些屬性的 embedding。
每輪推薦或者提問之后,會根據用戶的反饋更新用戶 embedding 服從的高斯分布的參數,具體更新方式如下:
?????
文章把湯普森采樣運用在對話式推薦中,并更具加入的初始化過程和用戶喜歡屬性信息建模調整了參數的更新方式。湯普森采樣是一種經典的 Bandit 算法,目的是在推薦過程中保持探索-利用的平衡,使得在一定時間內的收益損失有一個理論的上界。
在這里假設用戶的 embedding 服從一個多維高斯分布 ,并不斷利用用戶反饋更新其均值 和協方差 。
實驗效果
?
文章在兩個經典數據集 Yelp,LastFM 和一個從快手平臺上收集的數據集 Kuaishou 上進行了詳盡的實驗。首先把 ConTS 和幾個現有方法做比較,并進行了消融實驗。結果如下:
表格中比較的是 15 輪的推薦成功率和平均推薦成功輪數,圖中展示的 1-15 輪的推薦成功率的相對差值。可以看到在每個指標上 ConTS 都顯著優于已有的方法。三個消融實驗分別去掉了模型中初始化,用戶喜歡屬性建模和探索模塊,結果驗證了這些設計對模型表現的重要性。
此外,我們還探究了不同的 Bandit 方法——湯普森采樣和上置信界算法對我們模型的影響。我們用同樣的方式把上置信界算法進行改進以適應對話式推薦場景,并于 ConTS 進行比較,結果如下:
可以看到湯普森采樣在我們的場景下表現更好。文章還研究了在最大對話輪數更小(7 和 10)下的情況,ConTS 仍然顯著優于其他方法;探究了在不同程度冷啟動條件下模型之間的差異,結果表明 ConTS 適合冷啟動場景而其他一些方法如 EAR [3] 適合熱啟動場景。最后用三個案例分析探究了不同方法在實際對話過程中的策略差異。
?
結論
如何為冷啟動用戶做推薦是學術界和工業界研究的熱點問題之一。這篇論文利用對話式推薦結合湯普森采樣的方式,提出了一個融合物品和屬性的統一模型來解決該問題。在保持探索-利用平衡的同時,用對話的方式直接快速地獲得用戶的興趣,以此幫助系統更好地為冷啟動用戶進行推薦。實驗結果表明,該模型相對現有方法具有較大優勢。
參考文獻
[1] Shipra Agrawal and Navin Goyal. 2013. Thompson sampling for contextual bandits with linear payoffs. In ICML.127–135.
[2]? Xiaoying Zhang, Hong Xie, Hang Li, and John Lui. 2020. Conversational Contextual Bandit: Algorithm and Application.In WWW.
[3]? Wenqiang Lei, Xiangnan He, Yisong Miao, Qingyun Wu, Richang Hong, Min-Yen Kan, and Tat-Seng Chua. 2020.Estimation–Action–Reflection: Towards Deep Interaction Between Conversational and Recommender Systems. InWSDM.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的快手-中科大最新研究:利用对话式推荐解决用户冷启动问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 市净率为负是什么意思
- 下一篇: 怎么注销股票账户 可以通过不同途径注销