SIGIR 2021 | AutoDebias:推荐系统中通用的自动去偏方法
?PaperWeekly 原創 ·?作者|董漢德
學校|中國科學技術大學碩士生
研究方向|信息檢索
?
摘要
近些年來,推薦系統的偏差越來越受到研究者的關注。訓練推薦模型的數據大多為觀測所得,而非實驗所得,這意味著數據中存在大量的偏差,直接拿模型擬合數據而忽略這種偏差將會導致性能欠佳。
該論文提出了一種基于元學習(meta-learning)的去偏方法,該方法包括兩部分:1)總結歸納出了一種通用的去偏框架,該框架能夠處理所有推薦系統中的偏差,將尋找最優去偏策略問題轉化為設置框架中的去偏參數問題;2)利用少量的無偏數據作為監督信息,采用元學習的策略來學習框架中的去偏參數從而實現自適應的糾偏。
論文題目:
AutoDebias: Learning to Debias for Recommendation
收錄會議:
SIGIR 2021
論文鏈接:
https://arxiv.org/abs/2105.04170
代碼鏈接:
https://github.com/DongHande/AutoDebias
?
研究背景
推薦系統所用的數據中,偏差廣泛存在,常見的偏差包括:
1. 選擇偏差(selection bias):用戶傾向于選擇喜歡的物品進行交互;
2. 一致性偏差(conformity bias):用戶的對物品的評價會受到群體意見的影響;
3. 曝光偏差(exposure bias):用戶只被曝光在推薦系統展示的物品上并只與這些物品產生交互;
4. 位置偏差(position bias):用戶和物品的交互情況可能被物品在推薦列表中的位置所影響。
?
目前的去偏算法主要可以分成三類:
1. 反傾向分數:估計數據被觀測到的傾向性分數,并在每條數據樣本利用傾向分數的倒數重加權;
2. 數據填充:由于觀測到的數據往往是整個用戶-物品矩陣中一個很小的有偏子集,可以通過對矩陣的合理填充來去偏;
3.?生成模型:假設數據的因果生成過程,通過優化整體的概率生成模型以挖掘出用戶的真實興趣。
?
這些方法能起到一定的去偏效果,然而其也具有如下的局限性:
1. 缺乏普適性:現有的去偏方法都是針對某一種/兩種特定的偏差設計的,然而,現實數據中的偏差往往是多種并存的,在這中場景下現有方法無法取得很好的效果;
2. 缺乏自適應能力:現有方法往往依賴于專家的假設,例如假設傾向分數、矩陣填充值。然而數據中的偏差往往隱含著復雜的模式,不易被專家察覺;且偏差的模式也會隨著時間的變化而變化,靠專家察覺偏差的模式不僅費時費力,而且往往具有滯后性。因此如何設計出普適的、自適應調整的去偏方法具有重要意義。
?
方法介紹
方法介紹共分為三部分:去偏框架的建立、建模去偏參數、學習去偏參數。
?
3.1 去偏框架的建立
要想建立一個通用的去偏框架,了解偏差內在的原因是必要的。該文章指出:推薦系統中的偏差可以定義為對于經驗風險函數的估計的期望和真實理想的風險函數之間的差異。
在推薦系統中,訓練數據往往是觀測所得,即生成訓練數據的概率分布和生成測試數據的概率分布存在一定的不一致,這種不一致將會導致對于經驗風險函數估計的期望和真實的風險函數存在差異,進而導致根據訓練數據學習出的模型與最優模型之間的差異。整個過程可以用如圖 1 表示:
▲ 圖1 推薦系統中偏差的定義
其中, 代表生成訓練集的分布, 代表生成測試集的分布; 表示模型訓練的經驗風險函數,其中 為訓練集中的訓練數據,滿足分布 ; 表示模型想要去優化的理想風險函數; 表示根據經驗風險函數 所得的最優模型, 表示根據理想風險函數得到的最優模型。圖 2 表示風險函數的差異將導致最優模型存在差異。
▲ 圖2 風險函數的不一致性導致最優模型之間的差異
在這種理解之上,我們首先提出采用重加權(re-weighting)的方法去偏--對每個訓練集中的樣本加上特定的權重,即 ,其中 為訓練集中觀測到的樣本。但是,如圖 3 所示,訓練集的分布可能在某些數據上取到 0,難以覆蓋完整的數據空間。僅采用重加權的方式不能考慮到訓練集未覆蓋區域的信息,特別是當訓練集未覆蓋區域的信息和訓練集中信息的模式不同的時候,重加權也無法消除所有偏差。
這個時候,我們進一步的采用填充(imputation)的方法可以進一步去偏,即進一步的引入項 ,其中 為填充值。填充可以理解為在訓練集未覆蓋區域,即圖中的 構造偽標簽數據,從而引導模型的模型。
總的來說,該框架可以表示為:
其中, 表示去偏參數。在此框架下,去偏任務轉化為如何尋找合適的去偏參數。
▲ 圖3 訓練集的分布僅僅包含了整個數據分布的子集
?
3.2?建模去偏參數
在上面的框架中,去偏參數量是巨大的,直接優化這些參數將會導致過擬合,且不具備任何泛化性能。為了克服這一局限,文章提出了用模型建模去偏參數,并用線性模型作為具體實例:
其中 是要學習的線性模型的參數,后面[ ]內是我們引入的特征,其中 分別表示由用戶、物品、評分、狀態信息構成的 one-hot 向量, 表示拼接操作。通過建模,去偏參數量將大幅減少,且可以將有用的特征引入到模型中,合理的建模也有利于增加模型的泛化性能。
3.2?學習去偏參數
指導模型學習到合理的去偏參數需要關于無偏數據的信號,因此需要引入少量的無偏數據 ,在推薦系統中,可近似的認為利用均勻策略(uniform policy)收集的數據為無偏數據。
學習去偏參數的任務被定義為一個雙層優化的問題,內層優化為 ,外層優化為 ,即優化 的目標為使在 作為超參數訓練得到的推薦模型 能夠在均勻數據上取得最好的效果。
▲ 圖4 自動去偏算法的計算圖
具體優化的時候,該文采用基于一階信息的優化過程,記錄每一步 的優化,并調整 一步,使得該步 的優化在無偏集合上最優,如圖 4 所示,優化共分為三個步驟:
(1)對 進行假設更新:;
(2)對 進行更新:,梯度傳遞的方向為:;
(3)對 進行更新:。
實驗結果
4.1 整體性能
表 1 驗證在兩個公開數據集下自動去偏算法和當前性能較好的算法的對比,可以看出,自動去偏算法取得了較大提升。
▲?表1 顯示反饋下和現有算法的性能對比
?
4.2?推薦結果分析
圖 5 展示了不同算法推薦結果中對于流行物品和不流行物品的推薦情況,可以看出,自動去偏算法為不流行物品提供了更多的曝光機會,且提升也主要來自于不流行物品。這說明了自動去偏算法有利于打破推薦系統中的反饋回路(越來越傾向于推薦流行的物品),提供更好的推薦生態。
▲?圖5 不同算法的推薦結果分析
?
4.3 在其他類型的偏差下的性能對比
表 2 展示了在隱式反饋(主要存在曝光偏差)下各模型性能對比,表 3 展示了列表反饋下(用戶對推薦列表的反饋數據,這里存在選擇偏差和位置偏差的混合偏差)。可以看出,自動去偏算法能處理不同類型的偏差,對于多種偏差共存的場景也有較好的表現,這體現了自動去偏算法的普適性。
?
▲?表2?隱式反饋下模型的性能對比
?
▲ 表3?列表反饋下的性能對比
?
結論
該文從風險不一致性的角度定義了推薦系統中的偏差,并設計出了通用的去偏方法—自動去偏算法(AutoDebias)。該方法能夠自適應地學習去偏參數,具有較強的自適應能力,且通過實驗驗證了自動去偏算法具有較好的普適性,能夠處理各種偏差及其組合。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的SIGIR 2021 | AutoDebias:推荐系统中通用的自动去偏方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 医保卡丢了怎么补办
- 下一篇: 银联卡跨行取款收费吗