CIKM 2021 | 自监督学习在社会化推荐系统中的应用
?PaperWeekly 原創 ·?作者 | 龍小玲、黃超
單位 | 香港大學計算機學院
研究方向 | 自監督學習,?推薦系統
論文標題:
Social Recommendation with Self-Supervised Metagraph Informax Network.
論文來源:
CIKM 2021
論文地址:
https://arxiv.org/pdf/2110.03958.pdf
論文代碼:
https://github.com/SocialRecsys/SMIN
研究背景
推薦系統(Recommender Systems)已成為電子商務、新聞門戶等在線服務平臺的重要組成部分,其目的在于有效挖掘用戶興趣并緩解信息過載的問題。協同過濾(Collaborative Filtering)作為應用較為廣泛的推薦方法,它從用戶和商品的歷史交互行為中挖掘出用戶的興趣愛好并進行推薦。
然而,傳統的協同過濾方法經常遭受數據稀疏和冷啟動問題,而隨著線上用戶社交的流行,使用戶能夠與他人分享他們的觀點,許多方法致力于將在線社交網絡信息融入到用戶-商品交互模式的學習框架中,以緩解數據稀疏問題并提升推薦系統的精確度。
近年來,許多工作提供了神經網絡技術的深入見解,并設計了更加復雜的模型來從用戶社交網絡和用戶商品歷史交互中學習用戶和商品的表征信息,進而提高推薦性能。但是,現有的社交推薦模型缺少對用戶和商品間高階語義關系的顯示學習,同時忽略了商品側的一些額外信息。例如,電商平臺上兩個沒有直接好友關系的用戶,可以通過點擊同一個商品或者點擊同一個類別的商品關聯起來,從而捕獲更高階的用戶關聯性信息,從而豐富用戶的特征表示。
在該研究工作中,我們通過引入商品側的知識信息和對用戶和商品間高階語義關系的顯示編碼作為出發點進行探索,提升推薦系統的性能,但同時引入用戶社交關系和商品知識信息帶來了諸多技術挑戰。首先,將用戶社交關系和商品知識信息融入到用戶-商品交互中,涉及到不同的相互依賴關系,這本質上是異構的,如何在建模中提取異構關系的語義信息,仍然是一個重大的挑戰。
同時,在實際推薦場景中,影響用戶行為的因素通常是多方面的,可以是來自商品側也可以是來自用戶側,例如用戶會因為他的好友購買過某個商品而對該商品產生興趣;用戶也有可能對某個商品感興趣因為他曾經購買過和該商品同一類的其他商品,因此設計網絡來捕獲用戶側和商品側特定語義關系的影響是非常有必要的。此外,圖神經網絡中如何將高階的語義關系融入到用戶商品特征中,又同時保持圖的局部和全局信息,仍是該工作所面臨的重要挑戰。
模型介紹
在意識到將用戶側和商品側的高階異構語義關系融合到推薦框架中的重要性以及相應的挑戰,本文提出基于自監督學習的 SMIN(Self-Supervised Metagraph Informax Networks)推薦算法。其中 SMIN 方法分為三個模塊, 分別是基于Meta-Relation的異構編碼模塊(Meta-Relation Heterogeneity Encoding)、關系聚合模塊(Self-Supervised Graphical Mutual Information Learning Paradigm)、以及基于自監督的互信息學習框架(Self-Supervised Graph Mutual Information Learning Paradigm)。
本文提出了一種基于 Meta-Relation 的異構圖神經網絡,從多語義維度對用戶和商品間復雜關系進行建模,并通過最大化局部特征與全局特征間的互信息,進行聯合訓練。
2.1 異構關系編碼器
首先,我們提出一個基于元路徑的異構關系編碼器來提取用戶和商品節點之間不同的語義關系(異構圖由三部分構成:user-user 關系圖、user-item 交互圖、item-item 關聯性圖)。
本文中我們分別在用戶域和商品域定義了不同類型的元路徑信息,如下圖所示:
2.1.1 用戶域
Social Network Context:代表用戶之間的社交關系,例如好友關系、有共同興趣的社區群體,用戶的偏好興趣會收到其他好友的影響。
Behavior-level User Relation:除了顯性存在的社交網絡連接外,還通過考慮用戶行為來建模用戶時間的關聯度,例如購買或者點擊過很多個同一個商品的兩個用戶會彼此產生一定的關聯。
Knowledge-aware User Dependency:為了將商品額外的知識信息整合到推薦框架中,我們進一步考慮了基于商品間額外信息所構建出來的用戶關聯性,例如購買或者點擊過多個同一個類別的商品的兩個用戶會彼此間存在潛在的相關聯性。
2.1.2 商品域
Behavior-level Item Relation:根據用戶的交互行為來考慮商品間的潛在關系,例如被相同用戶點擊過的商品,可能會具有一些潛在的共性。
Knowledge-aware Item Dependency:引入商品的額外知識信息,例如商品的類別信息。它們在某些方面具有一定的相似性,相互之間有一定的依賴關系。
不同的元路徑保存不同的關系結構,在預處理獲得基于元路徑生成的關系圖之后,對每張圖進行 L 次基于圖卷積的消息傳遞和聚合操作,分別得到 0 階、1 階... L 階特征,將 L+1 個特征拼接作為該關系圖提取到的節點特征,以商品為例(以商品為例,具體見下圖所示)。
2.2 跨元路徑的聚合網絡
通過上述模塊,用戶獲取了三個基于不同元路徑關系圖的表征信息,商品獲取了兩個基于不同元路徑關系圖的特征表示,考慮到不同元路徑對節點表示的貢獻是不同的(例如獲取用戶的購買偏好特征,理論上用戶行為關系的影響力相對與社交關系以及具有用戶行為影響的商品知識信號的影響力要更大),我們提出一個基于注意力機制的聚合層,來執行跨元路徑的信息聚合(以商品為例,見下圖所示)。
通過對上一步獲得的特征做特征非線性變換獲取該特征的重要程度,其中采用 tanh 做激活函數,然后再做特征加權聚合,得到最終的包含豐富語義的結點表示。
2.3 基于自監督的互信息學習架構
在將異構關系結構保存并提取到用戶和商品的特征空間后,我們的目標是將高階的交互模式注入到我們的社會化推薦模型中,因此我們設計了一個自監督的互信息學習架構,以捕捉局部節點特征和全局圖的依賴關系,構建具有輔助優化目標的監督信號,具體見下圖所示。
首先將跨元路徑聚合后的用戶結點特征和商品結點特征,作為用戶-商品交互圖的初始節點特征,先做一次基于圖卷積的消息傳遞和聚合操作將交互模式注入到特征空間中,然后通過一階鄰接矩陣計算 k 階鄰接矩陣,進而得到以每個結點為中心的 k 階子圖全局特征,最后最大化中心結點特征和 k 階子圖全局特征的互信息。
此外為了保持圖的拓撲信息,我們利用注入交互模式后的結點特征來重構圖的邊,同時最大化注入交互模式前和注入交互模式后的結點特征間的互信息來增強結點的變換能力。利用最終將獲取到的用戶特征和商品特征做預測任務,和互信息模塊一起聯合訓練。
實驗結果
本文在三個推薦數據集上進行實驗與模型的驗證,數據集均采集自真實的用戶平臺,統計信息見 Table 1。本文采用隱式反饋任務常用的 leave-one-out 評測模式,對每個測試用戶,選取一個購買商品作為測試集中的正例,另選取 99 個未交互商品作為測試負例,使用 Hit Rate@N 和 NDCG@N 作為評測指標。我們將 SMIN 與多個類別的多個 baseline 方法進行了對比實驗,并且展示了模型在推薦任務上的優勢。
3.1 對比實驗
如 Table 2 所示,在三個數據集上 SMIN 均取得了明顯更優的推薦效果。
3.2 消融實驗
為了驗證 SMIN 各個子模塊的有效性,我們對整個模型框架中的可信模塊進行了消融實驗。相應的實驗結果請參見論文中 Table 4。在消融實驗中,SMIN-h 指去掉基于元路徑的異構圖編碼模塊,SMIN-m 指去掉整個自監督的互信息框架,SMIN-g 指去掉互信息模塊中局部特征和 k 階子圖全局特征互信息模塊,SMIN-t 指去掉為了保存圖的拓撲信息的互信息模塊,SMIN-a 指去掉跨元路徑融合的注意力機制,換成平均的操作。從結果可以看出,各個模塊在整個 SMIN 框架的推薦效果均有一定的促進作用。
同時,我們針對不同元路徑關系也進行了消融實驗,以探究不同元路徑對模型預測的重要程度。實驗結果見下圖,其中-代表去除元路徑。從結果可以看出,每條元路徑在整個 SMIN 框架的推薦效果均有一定的促進作用。
3.3 參數實驗
我們針對模型超參數進行了學習,在三個數據集上改變超參設定測試模型效果。從結果可以看到,不同數據集上超參設置的表現有所不同。特征維度為 d,我們將 d 從 8 變化到 128。當 d 的數量達到 64 個左右時,模型的性能就會達到飽和,因為更大的特征維度可能會帶來更強的表示能力。然而,由于過擬合問題,特征維度的進一步增加導致性能略有下降;圖神經網絡的層數為 L,我們將 L 從 1 改變到 3 來分析 GNN 層數的影響,同時保持其他參數作為默認設置。
L=2 時模型效果達到最佳,進一步堆疊一層(L=3)性能會變差,這表明我們的異構圖體系結構中的二階連接足以捕獲用戶和項目之間的多方面關系;互信息模塊子結構的 k-hop 相鄰關系,我們可以注意到 k=2 時模型性能達到最佳,而通過與高階(k=3)的全局協作關系進行建模可能會引入一些噪聲和不相關的依賴性。
總結
在本文中,我們提出了基于自監督框架的元關系學習網絡(SMIN)的社會推薦系統。我們的模型通過元路徑引導的異構圖神經網絡學習用戶和商品的社會和知識依賴關系。在四個真實數據集上的實驗結果表明,與各種最先進的模型相比,我們的框架具有優勢。我們未來的工作包括探索用戶和項目的外部屬性(例如,用戶配置文件、產品圖像),以進一步提高性能。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的CIKM 2021 | 自监督学习在社会化推荐系统中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 正视长尾挑战!颜水成、冯佳时团队发布首篇
- 下一篇: 农村可以投资什么项目 给大家提供几个好选