【论文解读】IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统
論文解讀者:北郵 GAMMA Lab 碩士生? 李晨
題目:?Graph Neural News Recommendation with Long-term and Short-term?Interest Modeling
期刊:?Information Processing & Management (Volume 57, Issue 2)
論文鏈接:?
https://arxiv.org/pdf/1910.14025.pdf
隨著新聞文章的信息爆炸,個性化的新聞推薦因為能夠讓用戶快速找到自己感興趣的文章,已經越來越受到業界和學術界的關注。現有的新聞推薦方法主要包括基于用戶-新聞直接交互的協同過濾方法和基于用戶歷史閱讀內容特征的基于內容的方法。雖然這些方法取得了良好的性能,但由于大多數方法無法廣泛利用新聞推薦系統中的高階結構信息(例如U-D-T-D-U隱含相似的用戶傾向于閱讀相似的新聞文章信息),存在數據稀疏問題。在本文中,我們提出構建一個異質圖來明確地建模用戶、新聞和潛在主題之間的交互。附加的主題信息將有助于捕捉用戶的興趣,并緩解用戶-新聞交互的稀疏性問題。然后我們設計一個新穎的異質圖神經網絡學習用戶和新聞表示,通過在圖上傳播特征表示來編碼高階結構信息。通過異質圖完整的用戶點擊歷史學習到的用戶嵌入能夠捕獲用戶的長期興趣。此外,我們還設計了融合注意力的LSTM模型使用最近的閱讀歷史來建模用戶最近的短期興趣。
1 引言
個性化新聞推薦的典型方法有很多種,包括協同過濾(CF)方法和基于內容的方法。基于ID的協同過濾方法經常遇到冷啟動問題,因為過時的新聞經常被更新的新聞替換。而基于內容的方法則完全忽略了協同信息。針對這一問題,提出了協同過濾與內容相結合的混合推薦方法。但這些方法都存在數據稀疏性問題,不能廣泛利用高階結構信息(如關系表示用戶和之間的行為相似度)。此外,它們大多忽略了潛在的主題信息,這些信息有助于表明用戶的興趣,并減少稀疏的用戶-新聞交互。直覺上來講,當用戶點擊很少的新聞條目時,可以通過主題作為橋梁聚合更多的信息。同時,現有的新聞推薦方法很少考慮到用戶的長期和短期興趣。用戶通常具有相對穩定的長期興趣,也可能會被某些事物暫時吸引,即短期興趣,在新聞推薦中應該考慮到這一點。例如,用戶可能會持續關注政治事件,這是一個長期的興趣。相比之下,某些突發新聞事件,如恐怖分子暴動,通常會引起暫時的興趣。
為了解決上述問題,本文提出了一種新的異質圖神經網絡新聞推薦模型(簡稱GNewsRec)。具體而言我們首先構建一個異構的用戶-新聞-主題圖,如圖1(a)所示,以明確的建模用戶、新聞和主題之間的交互。主題信息可以幫助更好地反映用戶的興趣,并緩解用戶-新聞交互的稀疏性問題。為了編碼用戶、新聞和主題之間的高階關系,本文利用圖神經網絡(GNN)在圖上傳播特征表示來學習用戶和新聞表示,通過異質圖完整的用戶點擊歷史學習到的用戶嵌入能夠捕獲用戶的長期興趣。此外本文還設計了基于注意力的LSTM,使用最近的用戶閱讀歷史來建模用戶的短期興趣。最后將用戶的長期和短期興趣融合起來,然后將其與候選新聞表示拼接計算以預測最終的評分。
圖1. 用戶-新聞-主題異質圖與兩層異質圖神經網絡。
2 模型介紹
如圖2所示,GNewsRec模型包含三個主要部分:用于文本信息提取的CNN,用于長期用戶興趣建模和新聞建模的GNN,以及用于短期用戶興趣建模的基于注意力的LSTM模型。第一部分是通過CNN從新聞標題和概要中提取新聞特征。第二部分構建具有完整用戶點擊歷史記錄的用戶-新聞-主題異質圖,并應用GNN編碼高階結構信息。附加的潛在主題信息可以緩解用戶-項目的稀疏性,因為用戶點擊較少的新聞項目可以通過主題作為橋梁而聚合更多的信息。在圖上具有完整的用戶點擊歷史學習到的用戶嵌入能夠建模相對穩定的長期用戶興趣。在第三部分,我們還通過一個基于注意力的LSTM模型編碼最近的閱讀歷史來建模用戶的短期興趣。最后,我們將用戶的長期和短期興趣結合起來得到用戶最終表示,然后將其與候選新聞表示進行比較以進行推薦。
圖2. 模型框架
2.1 文本信息提取器
我們使用兩個并行的CNN作為新聞文本信息提取器,分別以新聞的標題和概要作為輸入,學習新聞的標題級和概要級表示。這兩個表示相拼接作為新聞的最終文本特征表示。
2.2 用戶長期興趣建模與新聞建模
我們將潛在的主題信息整合到新聞文章中,以更好地表明用戶的興趣,緩解用戶-新聞稀疏問題。因此,本文構造一個異質無向圖G=(V,R),如圖1(a)所示,其中V和R分別是節點集和邊集。此圖包含三種類型的節點:用戶U、新聞I和主題Z。主題Z可以通過主題模型LDA來挖掘。
在構建的用戶-新聞-主題異質圖的基礎上,利用GNN通過傳播嵌入來捕獲用戶與新聞的高階關系。以下是計算單個GNN層學習某節點表示的一般形式:
其中AGGREGATE是聚合函數,它聚合來自相鄰節點的信息,在本文中,我們使用的是均值聚合函數,它簡單地取相鄰節點向量的平均值。
考慮具體的用戶u和新聞d候選對,我們使用U(d)和Z(d) 分別表示與新聞文檔d直接相連的用戶和主題集合。在真實應用場景中,U(d)的大小對于不同新聞文檔可能有較大的差異,為了保持每個批次的計算模式固定和高效性,我們對每篇新聞d統一采樣一組固定大小的鄰居|S(d)| = L,而不是使用其完整的鄰居 。?根據上述GNN計算一般形式,為了刻畫新聞d的拓撲結構,計算如下:
上文介紹的是一個單層的GNN新聞節點的表示學習,候選新聞的最終表示僅依賴于它的近鄰。用戶節點計算方式相似,就不贅述。為了捕捉用戶和新聞之間的高階關系,我們可以將GNN從一層擴展到多層,以更廣更深的方式傳播嵌入。
通過GNN,我們可以得到經過高階信息編碼的最終用戶和新聞嵌入。通過完整的用戶點擊歷史學習到的用戶嵌入能夠捕獲相對穩定的長期用戶興趣。但是,我們認為用戶可能會短暫被某些東西所吸引,即用戶具有短期的興趣,這也應該在個性化新聞推薦中考慮到。
2.3 用戶短期興趣建模
在本小節中,我們將介紹如何通過基于注意力的LSTM模型,使用用戶最近的點擊歷史來建模用戶的短期興趣。我們不僅關注新聞內容,而且關注新聞的閱讀順序信息。
(1)內容上的注意力機制
給定用戶u和他/她最近點擊的l條新聞,我們使用注意力機制來建模用戶最近點擊的新聞對候選新聞d的不同影響:
(2)時序上的注意力機制
除了使用注意力機制來建模用戶當前基于內容的興趣外,我們還關注最近閱讀新聞的點擊時序信息,因此我們使用基于注意力的LSTM來捕捉時序特征。如圖2所示,LSTM將用戶最近點擊的新聞嵌入作為輸入,輸出用戶的序列特征表示。由于每個用戶當前的點擊會受到之前交互歷史的影響,因此我們使用上文介紹的注意力機制(內容上的注意力機制)應用于LSTM輸出的每個隱含狀態與其之前的隱含狀態上來獲得不同時刻的序列特征表示s_j。這些特征通過CNN融合,最終得到用戶關于最近l條點擊歷史的序列特征表示
我們將用戶當前基于內容的興趣表示與序列特征表示拼接輸入到一個全連接層中,得到用戶最終的短期興趣嵌入:
2.4 預測與模型優化
最后,通過對用戶長期和短期興趣嵌入向量的拼接進行線性變換,得到用戶的最終表示:
然后將最終用戶嵌入與候選新聞嵌入輸入一層全連接層以預測用戶點擊新聞的概率:
為了優化我們的模型,我們使用交叉熵作為我們的損失函數:
3 實驗
3.1 性能實驗
表1. 各個模型性能實驗結果
從表1中我們可以看到,我們的模型對比最優對比模型在F1和AUC上都分別提高了10.67%和2.37%。我們將我們的模型的顯著優勢歸結于以下三個方面:(1)我們的模型構建了一個異質的用戶-新聞-主題圖,并且使用異質圖神經網絡更好的編碼了用戶和新聞嵌入的高階信息。(2)我們的模型既考慮了用戶的長期興趣,又考慮了用戶的短期興趣。(3)在異質圖中引入主題信息,可以更好地反映用戶的興趣,即使很少用戶點擊的新聞仍然可以通過主題聚合相鄰的信息,從而緩解用戶-新聞交互的稀疏性問題。
我們還發現,所有基于內容的模型都比基于協同過濾的模型具有更好的性能。這是因為新聞推薦問題存在冷啟動問題,基于協同過濾的方法不能很好地解決此問題。而我們的模型作為一個混合模型可以結合基于內容的推薦算法和基于協同過濾的模型的優點。此外,沒有用戶點擊的新文檔也可以通過主題連接到現有的圖中,并通過GNN更新它們的嵌入。綜合以上因素,我們的模型可以獲得更好的性能。
3.2 消融實驗
進一步,我們比較了GNewsRec的不同變體,以證明我們的模型設計在以下方面的有效性:GNN學習帶有高階結構信息編碼的用戶和新聞嵌入,結合用戶長期和短期興趣以及引入主題信息。結果如下表2所示。
正如我們從表中看到的,當我們刪除用于建模長期用戶興趣和新聞的GNN模塊時,性能會有很大的下降。該模塊通過構造異質圖并應用GNN在圖上傳播嵌入在圖中編碼了高階關系,這證明了我們模型的優越性。?去掉短期興趣建模模塊將在AUC和F1方面降低約2%的性能。這說明同時考慮用戶的長期和短期利益是必要的。?與沒有主題信息的變體模型相比,GNewsRec在這兩個指標上都取得了顯著的改進。這是因為主題信息可以緩解用戶-新聞稀疏性帶來的冷啟動問題,很少用戶點擊的新文檔可以通過主題聚合相鄰的信息。
表2. GNewsRec變體模型的性能比較實驗結果
3.3 參數實驗
在本節中,我們主要探討不同參數對GNewsRec的影響。我們研究了不同GNN層數的影響,以及新聞、用戶和話題嵌入D的不同維度的影響。
表3. GNN層數對GNewsRec性能的影響
我們將GNN的層數從1層設置到3層。從表3中,我們可以發現帶有2層GNN的GNewsRec性能最好。這是因為1層GNN無法捕獲用戶和新聞之間的高階關系,而3層GNN可能會給模型帶來大量的噪聲,因為層級越高,關系鏈越長,在推斷節點間相似性時就越沒有意義。因此,我們在GNewsRec模型中選擇使用兩層GNN。
圖3. 嵌入向量不同維度對GNewsRec性能的影響
圖3顯示了嵌入向量不同維度對GNewsRec性能的影響結果,從圖上可得:(1)我們的模型在D = 128時性能最好,表明在該維度下最能表達新聞、用戶和主題空間的語義信息。(2)模型效果先隨著D的增加而增加,而后隨著D的增加反而下降。這是因為過低的維數不足以捕獲必要的信息,而過大的維數會引入不必要的噪聲,降低泛化能力。
4 總結
在本章中,我們提出了一個新穎的融合長期和短期興趣建模的異質圖神經新聞推薦模型GNewsRec。我們的模型構建了一個用戶-新聞-主題異質圖來建模用戶-新聞交互,從而緩解了用戶-新聞交互的稀疏性。然后應用異質圖卷積網絡學習用戶嵌入和新聞嵌入,通過在圖上傳播特征信息捕獲高階結構與語義信息。在真實新聞推薦數據集上的實驗結果表明,我們的模型顯著優于最先進的方法。
本期責任編輯:楊成
本期編輯:劉佳瑋
北郵 GAMMA Lab 公眾號
主編:石川
責任編輯:王嘯、楊成
編輯:劉佳瑋
副編輯:郝燕如,紀厚業
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【论文解读】IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】同款商品识别的克星--Arc
- 下一篇: UC浏览器如何调节手机屏幕亮度