【论文翻译】统一知识图谱学习和建议:更好地理解用户偏好
一、摘要
將知識圖譜(KG)納入推薦系統(tǒng)有望提高推薦的準確性和可解釋性。然而,現(xiàn)有方法主要假設KG是完整的并且簡單地在實體原始數(shù)據(jù)或嵌入的淺層中轉移KG中的“知識”。這可能導致性能欠佳,因為實用的KG很難完成,并且KG通常缺少事實,關系和實體。因此,我們認為,當將KG納入推薦系統(tǒng)時,考慮KG的不完整性是至關重要的。
?
在本文中,我們共同學習推薦模型和知識圖完成。與之前基于KG的推薦方法不同,我們在KG中傳輸關系信息,以便了解用戶喜歡某個項目的原因。例如,如果用戶觀看了由(關系)同一個人(實體)指導的幾部電影,我們可以推斷出導演關系在用戶做出決定時起著關鍵作用,從而有助于理解用戶的偏好。更細的粒度。
?
從技術上講,我們提供了一種新的基于翻譯的推薦模型,該模型專門考慮了將用戶翻譯成項目的各種偏好,然后通過組合幾種轉移方案將其與KG完成模型聯(lián)合訓練。對兩個基準數(shù)據(jù)集的大量實驗表明,我們的方法優(yōu)于最先進的基于KG的推薦方法。進一步分析驗證了聯(lián)合培訓對推薦任務和KG完成任務的積極影響,以及我們的模型在理解用戶偏好方面的優(yōu)勢。我們在https://github.com/TaoMiner/joint-kg-recommender上發(fā)布我們的項目。
?
二、介紹
知識圖譜(KG)是一種異構結構,以機器可讀圖形的形式存儲世界知識,其中節(jié)點表示實體,邊表示實體之間的關系。
?
自提出以來,KG在許多領域引起了廣泛關注,從推薦[40],對話系統(tǒng)[18,21]到信息提取[3]。專注于推薦,結構知識在提供有關項目的豐富信息方面顯示出巨大潛力,為提高推薦系統(tǒng)的準確性和可解釋性提供了有希望的解決方案。
?
然而,現(xiàn)有的知識圖譜(例如DBPedia [20])遠未完成,這限制了轉移知識的好處。如圖1所示,Robert Zemeckis和Death Becomes Her之間的紅色虛線表示缺少關系isDirectorOf。假設用戶選擇了電影回到未來 I&II和阿甘正傳,通過使用KG,我們可以將用戶選擇的原因歸因于導演Robert Zemeckis。在這種情況下,雖然我們已經準確地捕捉到用戶對電影的偏好,但由于KG中缺少關系,我們仍然可能無法推薦Death Becomes Her(用戶也感興趣)(參見紅色虛線)。因此,我們認為在使用KG進行推薦時考慮KG的不完整性至關重要,更有趣的是,KG的完成能否從改進的用戶項交互建模中受益?
?
在本文中,我們建議將聯(lián)合模型中的推薦和KG完成這兩項任務統(tǒng)一起來,以實現(xiàn)相互增強?;舅枷胧请p重的:1)利用KG中的事實作為輔助數(shù)據(jù)來增強用戶 - 項目交互的建模,以及2)基于增強的用戶項目建模來完成KG中的缺失事實。例如,我們能夠通過相關實體和關系了解用戶對導演的偏好;同時我們可以預測Robert Zemeckis是Death Becomes Her的導演,如果有一些喜歡這部電影的用戶也喜歡Robert Zemeckis導演的其他電影。
?
盡管許多先前的努力已經在推薦系統(tǒng)中利用了KG [16,29,30,44,46,48],但是很少有工作聯(lián)合模擬知識圖學習和推薦的兩個任務。 CoFM [31]是最相似的工作,通過規(guī)范化或共享實體和項目嵌入來協(xié)調每個任務中的兩個潛在向量空間,如果它們指的是相同的東西。但是,它忽略了實體關系在用戶項建模中的重要作用,并且無法提供解釋能力。
?
在這項工作中,我們提出了一個基于翻譯的用戶偏好模型(TUP),以便與KG無縫集成。關鍵思想是在用戶和項目之間存在多個(隱含的)關系,這揭示了用戶對消費項目的偏好(即原因)。 “偏好”的一個例子是圖1中的導演信息,它驅動用戶觀看電影回到未來I&II和阿甘正傳。雖然我們可以預先定義偏好的數(shù)量并從用戶 - 項目交互數(shù)據(jù)中訓練TUP,但是偏好被表示為潛在的向量,這些向量對于更深入的理解是不透明的。為了賦予偏好以明確的語義,我們將它們與KG中的關系對齊,捕捉項目屬性類型在用戶決策過程中起關鍵作用的直覺。從技術上講,我們將關系嵌入以及從KG學到的實體嵌入轉移到TUP,同時訓練KG完成和推薦任務。我們將該方法稱為知識增強型TUP(KTUP),它共同學習用戶,項目,實體和關系的表示。主要貢獻歸納如下:
?我們提出了一種新的基于翻譯的模型,該模型利用隱式偏好表示來捕獲用戶和項目之間的關系。
?我們強調聯(lián)合建模項目推薦和KG完成的重要性,以將偏好表示與知識感知關系相結合,從而賦予模型可解釋性。
?我們對前N個推薦和KG完成任務的兩個數(shù)據(jù)集進行了大量實驗,驗證了聯(lián)合學習的合理性。實驗結果證明了我們模型的有效性和可解釋性。
三、相關工作
我們提出的方法包括兩個任務:項目推薦和知識圖譜補全。在討論它們之間的關系之前,我們先介紹每個任務的相關工作。
3.1項目推薦
在項目推薦的早期階段,研究人員專注于僅使用歷史交互向目標用戶推薦類似的用戶或項目,例如協(xié)同過濾(CF)[35],分解機[33],矩陣分解技術[19],BPRMF [34]。這里的關鍵挑戰(zhàn)在于提取用戶和項目的特征以計算它們的相似性,即基于相似性的方法。
隨著神經網(wǎng)絡(NN)模型的激增,許多方法將基于相似性的方法擴展到NN,并提出了一種更有效的機制來自動提取用戶和項目的潛在特征以進行推薦[7,12-14]。但是,它們仍然存在數(shù)據(jù)稀疏性問題和冷啟動問題?;趦热莸姆椒ㄍㄟ^引入各種輔助信息來處理問題,例如上下文評論[9,25],關系數(shù)據(jù)[10,36]和知識圖[6]。附加內容的另一個優(yōu)點是提高了可解釋的能力,以便理解為什么要推薦某個項目。已經發(fā)現(xiàn)這對于推薦系統(tǒng)的有效性,效率,說服力和用戶滿意度很重要[8,39,47]
在輔助信息中,知識圖(例如,DBPedia [20])由于其良好的結構和充足的資源而在推薦上顯示出巨大的潛力。這種類型的方法主要是基于實體和項之間的給定映射將實體的結構知識從KG轉移到用戶項交互建模。我們粗略地將它們分為兩組:使用KG三元組增加用戶 - 項目對數(shù)據(jù)的方法,以及結合從不同來源學習的項目和實體嵌入的方法。在第一組中,Piao和Breslin [29]提取了從KG(即屬性 - 對象,主題 - 屬性)驅動的輕量級特征,用于分解機器。張等人[46]通過在用戶和項目之間添加購買關系構建統(tǒng)一圖表,然后應用transE [2]來建模關系數(shù)據(jù)。另一方面,第二組中的方法通常使用實體嵌入來提高項目嵌入的質量,如果它們引用相同的東西[16,44]。 Piao和Breslin [30]使用不同的實體嵌入(即node2vec,doc2vec和transE)對推薦結果進行了總結,發(fā)現(xiàn)node2vec得到了最大的改進。 CoFM [31]首先將來自用戶項建模的實體嵌入的改進考慮為另一個轉移任務。但是,上述方法嚴重依賴于項目和實體之間的對齊。周等人 [48]在KG中引入實體概念來處理對齊的sparisity問題,但仍未考慮實體關系在從KG轉移知識方面的重要性。
另一項工作是基于翻譯的推薦,受KG表示學習的啟發(fā)。 它假設項目的選擇滿足潛在向量空間中的轉換關系,其中關系被認為與順序推薦[11]中的用戶相關,或者通過基于記憶的注意隱式建模[37]。 因此,我們通過將用戶偏好建模中的N對N問題1視為轉換關系來改進這種類型的方法,這將通過從KG轉移實體及其關系的知識來進一步增強。
3.2知識圖譜補全
已經發(fā)現(xiàn)外部知識在許多自然語言處理任務中都是有效的,例如問題回答[45],這加速了知識圖圖譜的普及。雖然有許多方法可以用于實體[4,5]及其與文本的關系[22],但現(xiàn)有的知識圖譜遠未完成。最近對KG補全熱衷于研究顯示出對學習實體和關系的低維表征,同時堅持圖的結構知識。我們粗略地將這種表示分類,學習方法分為兩組:平移距離模型和語義匹配模型。
TransE [2]首先提出了平移距離模型的核心思想,即兩個實體之間的關系對應于它們的向量空間中的平移。雖然它簡單而有效,但它有時會令人困惑,因為某些關系可以將一個實體轉換為各種實體,即1對N問題。類似地,還存在其他N對1和N對N問題。為了解決這些問題,許多方法通過引入額外的超平面[42],向量空間[23],文本信息[41]和關系路徑[22]來擴展TransE。
第二組通過基于相似性的評分函數(shù)匹配實體和關系的語義表示來測量事實的合理性。 RESCAL [27]將每個關系表示為捕獲實體之間的組合語義的矩陣,并將雙線性函數(shù)用作相似性度量。為了簡化關系矩陣的學習,DistMult [43]將它們限制為對角線,HolE [26]定義循環(huán)相關[32]以將關系矩陣壓縮為向量,ComplEx [38]為非對稱關系引入復數(shù)值。另一行方法不是對組合關系進行建模,而是直接引入NN進行匹配。 SME [1]分別學習頭部實體和尾部實體的關系特定層,然后將它們饋送到最終匹配層(例如,點生成),而NAM [24]與深層體系結構進行語義匹配。
3.3兩個任務之間的關系
項目通常對應于許多字體中的實體,例如書籍,電影和音樂,使得在字幕之間傳遞知識成為可能。涉及兩個任務的這些信息是互補的,揭示了項目之間或用戶與項目之間的連通性。就模型而言,這兩個任務都旨在對給定查詢(即,實體或用戶)的候選者以及它們的暗示或明顯相關性進行排名。例如,KG完成的目的是為Robert Zemeckis給出明確關系isDirectorOf的人提供正確的電影(例如,Death Becomes Her),而項目推薦旨在為滿足某些隱含偏好的目標用戶推薦電影。因此,我們能夠通過聯(lián)合模型填補項目推薦和KG完成之間的差距,系統(tǒng)地研究這兩個任務如何相互影響。
四、預備工作
在介紹我們提出的方法前,首先正式地定義兩個任務以及TransH作為我們模型的知識圖譜補全的組件。
?
4.1 任務和記號
項目推薦:給定用戶項目交互的表y={(u,i)},我們使用隱式反饋作為協(xié)議,每對(u,i)意指用戶u∈U消費項目i∈I,目標是為目標用戶推薦前N項。
KG補全:知識圖譜是由主對象-屬性-對象三元組組成的有向圖。每個三元組表示存在頭部實體eh到尾部尸體等的關系r,由(eh,et,r)定義,其中eh,et∈E是尸體兵器人r∈R是關系。由于知識圖譜的不完整性,只是圖譜補全是為三元組(eh,et,r)預測缺失的實體eh和et,這也可以被視為推薦目標的前N個實體。
TUP表示項目推薦的模型。 它將用戶-項目對的列表Y作為輸入,并且在給定偏好p∈P的情況下輸出指示你喜歡i的可能性的相關性得分д(u,i; p),其中偏好集P的數(shù)量是預定義。 對于每個用戶 - 項目對,我們引入偏好,作為兩個實體的關系的類似角色。 為了處理N對N問題,我們引入了偏好超平面,并為每個偏好分配了兩個向量:wp用于投影到超平面,p用于用戶和項目之間的轉換。
KTUP是一個多任務架構。 給定KG,Y和一組迭代對齊A = {(i,e)|i∈I,e∈E},其中每個(i,e)意味著我可以映射到給定KG中的實體e。 基于用戶u,項目i,偏好p,wp,尸體e,關系r,wr,的聯(lián)合學習嵌入,KTUP不僅可以輸出д(u,i; p),還可以輸出分數(shù)f(eh,et,r),表明事實為真的可能性。
例3.1. 如圖1所示,給定用戶,相互作用的電影(例如,回到未來I&II和阿甘正傳)以及相關的三元組,KTUP能夠(1)找出在電影上isDirectorOf關系的用戶偏好。(2)根據(jù)誘導的偏好推薦電影“飛越長生”,以及(3)預測三元組中失蹤的頭部或尾部實體(Death Becomes Her isDirectorOf -Robert Zemeckis)。 上述三個目標不僅要考慮KG中的結構知識,還要考慮用戶項目的相互作用。
接下來,我么們簡要地介紹一下transH,它在我們的聯(lián)合模型中作為知識圖譜補全的組件。
4.2 用戶知識圖譜補全的TransH
在堅持結構知識的同時操縱實體的有效方法。 TransE [2]由于其簡單性和顯著的有效性而被廣泛使用。 它的基本思想是學習實體和關系的嵌入,如果在KG中存在三元組(eh,et,r),則滿足eh +r≈et。 然而,單個關系類型可以對應于多個頭部實體或尾部實體,從而導致嚴重的1對N,N對1和N對N問題[42]。 因此,TransH [42]學習了以不同關系為條件的實體的不同表征。 它假設每個關系擁有一個超平面,并且頭實體和尾實體之間的轉換只有在它們投影到同一超平面時才有效。 它定義了三元組的能量分數(shù)函數(shù),如下所示:
f (eh, et , r ) =∥ e⊥h + r ? e⊥t ∥
f(eh,et,r)得分較低表示三聯(lián)體可能為真,否則為否。 e⊥h和e⊥t是預測的實體向量:
e⊥h = eh ? wTr ehwr (2)
e⊥t = et ? wTr etwr (3)
其中wr和r是關系r的兩個學習向量,wr表示相應超平面的投影向量,r是平移向量。 ∥·∥表示本文中使用的L1范數(shù)距離函數(shù)。 最后,TransH的訓練鼓勵使用基于差額的排名損失來區(qū)分有效三元組和不正確的三元組:
其中[·] +?max(0,·),KG-包含通過隨機替換有效三元組中的頭部實體或尾部實體而構造的不正確的三元組,并且γ控制正三元組和負三元組之間的邊界。
五、 用于項目推薦的TUP
受KG中兩個實體之間的上述翻譯假設的啟發(fā),我們建議TUP明確地模擬用戶偏好并將其視為用戶和項目之間的轉換關系。 給定一組用戶 - 項目交互Y,它自動引發(fā)對用戶 - 項目對的偏好,并且學習偏好p,用戶u和項目i的嵌入,滿足u +p≈i。 考慮到用戶偏好的不確定性和多樣性,我們在TUP中設計了兩個主要組件:偏好感應和基于超平面的翻譯。
5.1 偏好介紹
給定用戶項對(u,i),該組件用于從一組潛在因子P中引出偏好。這些因子由所有用戶共享,并且每個p∈P表示不同的偏好,其旨在捕獲 用戶之間的共性作為全局特征,補充了本地關注單個用戶的用戶嵌入。 與主題模型類似,數(shù)字P = | P | 是一個超參數(shù),我們無法提名每個偏好的確切含義。在KG的幫助下,可以自動設置首選項的數(shù)量,并為每個首選項分配說明(第5節(jié))。
我們設計了兩種偏好歸納策略:一種從P偏好中選擇一種的硬方法,以及將所有偏好與注意力結合起來的柔和方式。
5.1.1 硬策略:
我們的硬策略背后的直覺是,當用戶對項目做出決策時,只有一個偏好生效。 我們使用Straight-Through(ST)Gumbel SoftMax [17]對給定用戶 - 項目對的偏好進行離散采樣,利用反向傳播的重新參數(shù)化技巧,可以在端到端計算模型參數(shù)的連續(xù)梯度訓練。
ST Gumbel SoftMax大致采樣來自多分類分布的單熱矢量。 假設P路分類分布中屬于p類的概率定義為log softmax:
其中πp是得分函數(shù)的非標準化輸出。 然后,我們從上面的分布中采樣一個熱矢量z = [z1,...,zP]∈RP如下:
其中д=-log( -log(u))是Gumbel噪聲,u由某個噪聲分布產生(例如,u~N(0,1))。 噪聲項增加了arg max函數(shù)的隨機性,使得該過程變得等效于繪制一個樣本,該樣本包含連續(xù)的概率分布y = [y1,...yp,...,yP]:其中д=-log(-log(u))是Gumbel噪聲,u由某個噪聲分布產生(例如,u~N(0,1))。 噪聲項增加了arg max函數(shù)的隨機性,使得該過程變得等同于繪制一個樣本,該樣本包含連續(xù)的概率分布y = [y1,...,yp,...,yP]:
這稱為Gumbel-Softmax分布,其中τ是溫度參數(shù)。 相關證明可以在原始論文中找到。
直通(ST)gumbel-Softmax在前向和后向傳播中采用不同的路徑,以便保持稀疏性,同時支持隨機的下降(SGD)。 在前向傳遞中,它使如上所述的單熱矢量的連續(xù)概率分布離散化。 并且在后向傳遞中,它僅跟隨連續(xù)y,因此誤差信號仍然能夠反向傳播。 在硬策略中,我們將πp的得分函數(shù)定義為用戶 - 項對和偏好之間的相似度:
我們使用點積作為相似函數(shù)。
?
5.1.2 軟策略
實際上,用戶可能根據(jù)各種因素喜歡項目,這些因素沒有明顯的界限。 軟策略不是選擇最突出的偏好,而是通過注意機制組合多個偏好:
其中αp'是偏好p'的注意權重,并定義為與相似度得分成比例:
5.2 基于超平面的翻譯
受TransH的啟發(fā),我們引入超平面來處理各種偏好。 也就是說,不同的用戶可以對不同的項目共享相同的偏好(即,N對N問題),這在實踐中是相當普遍的。 顯然,對于類似TransE的轉換而言,這是令人困惑的:只要喜歡它們的用戶都是由于某種偏好(圖2(a)),項目的嵌入就很接近,從而導致用戶的錯誤結論 無論用戶的偏好是什么,消費者都應該消費另一方。 通過引入如圖2(b)所示的偏差超平面來減輕這種限制:i和i'具有不同的表示,并且僅當它們被投影到特定超平面時才是相似的。 因此,我們定義了基于超平面的翻譯功能,如下所示:
其中u⊥和i⊥是用戶和項目的投影向量,并且是通過誘導偏好p獲得的,它與TransH中的關系起著類似的作用:
其中wp是與偏好的誘導過程一起獲得的投影向量p:要么使用硬策略拾取相應的投影向量,要么通過在軟策略中基于誘導的注意力量來注意添加所有投影向量:
我們通過BPR Loss功能鼓勵每個用戶的交互項目的翻譯距離小于隨機項目:
其中Y'包含負面交互,通過隨機破壞每個用戶的交互項目到非交互項目。
傳統(tǒng)方法(例如,BPRMF [34])通過基于用戶和項目嵌入來計算標量分數(shù)來為用戶推薦項目,其指示用戶更喜歡該項目的程度。 相反,我們將偏好建模為向量,以便(1)捕獲用戶之間的共性作為全局潛在特征,與僅僅關注用戶的本地特征的用戶嵌入相比,以及(2)反映更豐富的語義以獲得可解釋的能力。
六、通過KTUP聯(lián)合學習兩個任務
? KTUP通過結合實體的KG知識以及關系來擴展基于翻譯的推薦模型TUP。直觀地,輔助知識補充了項目之間的連通性,作為對用戶 - 項目對建模的約束。 另一方面,對用戶對項目的偏好的理解應揭示其與某些關系類型和實體相關的共性,這可能在給定的KG中缺失。
?
6.1 KTUP
圖3顯示了KTUP的整體框架。 左側是輸入:用戶項交互,知識圖以及項和實體之間的對齊。 在右上角是項目推薦的TUP,而知識圖譜補全的TransH在右下角。KTUP通過增強項目和偏好與實體和關系的嵌入來共同學習這兩項任務。 我們定義知識增強型TUP翻譯功能如下:
其中i⊥是對應實體嵌入e的增強項嵌入i的投影向量:
并且p和wp是翻譯向量,并且投影向量通過根據(jù)預定義的一對一映射R→P的對應關系嵌入的那些增強。我們獲得這兩個向量如下:
因此,對于實體和項目,增強項目嵌入包含與用戶項目交互互補的項目之間的關系知識,并且改進項目推薦,因為實體嵌入e將結構知識保存在KG中。同時,嵌入e的實體應通過反向傳播期間用戶和項目的附加連接進行微調。請注意,我們不對兩個任務使用組合嵌入,因為它使項目的嵌入與兩個任務中的對應實體相同,這實際上降低了我們的模型以共享項目和實體之間的嵌入。對于關系和偏好,關系的使用不僅提供了對可解釋性的明確解釋,而且在模型層面上進一步更充分地結合了這兩個任務。一方面,通過一對一映射,關系標簽揭示了每個偏好的含義。例如,關系isDirectorOf顯示對導演的偏好,或者主演對電影明星的偏好。另一方面,由于KG的不完整性,許多項目沒有對齊的實體,這限制了僅傳遞實體知識的模型中實體和項目之間的對齊的相互影響。考慮到每個用戶 - 項目對都有一個偏好,兩個實體之間的關系也是如此,KTUP可以更徹底地優(yōu)化所有用戶,項目和實體。
?
KTUP的框架。 在頂部是項目推薦的TUP,包括兩個組件:偏好感應和基于超平面的翻譯。 KTUP聯(lián)合學習TUP和TransH,通過轉移實體知識和關系來增強項目和偏好建模。
6.2 訓練
我們使用總體目標函數(shù)訓練KTUP,如下所示:
其中λ是一個超參數(shù)來平衡這兩個任務。
6.3 SOTA模型的關系
在本節(jié)中,我們將討論KTUP與其他最先進的基于KG的推薦方法之間的關系,以便在第6節(jié)中促進對兩個任務之間的深入理解。我們選擇三個傳遞實體知識的典型模型在數(shù)據(jù)層面(CFKG [46]),嵌入層面(CKE [44])和兩個方向(CoFM [31])。我們從以下幾個方面總結了主要的差異和相似之處:用戶偏好的暗示CKE和CoFM可以被視為協(xié)同過濾的擴展。這種類型的方法隱含地考慮從用戶到項目的偏好并且依賴于它們的嵌入來計算分數(shù)(即點積),該分數(shù)指示用戶喜歡該項目的程度。 CFKG和KTUP明確地對首選項進行建模,并學習行業(yè)表示而不是標量來捕獲更全面的語義。各種用戶偏好CFKG定義了用戶和項目之間唯一的購買偏好,這明顯受到嚴重的N對N問題的影響,并且無法通過類似TransE的評分功能來處理它。 TKUP區(qū)分不同的用戶參數(shù)并為每個偏好引入超平面以及每個關系以學習項目和實體的各種表示來自KG CKE和CoFM的轉移知識僅側重于轉移實體的知識。 CFKG還通過統(tǒng)一圖表以數(shù)據(jù)集成的方式傳遞關系。除了實體和項目之外,KTUP根據(jù)預定義的一對一映射結合了關系和首選項的嵌入,這帶來了推薦機制的可解釋能力的另一副產品。
七、?數(shù)據(jù)集
電影和書籍領域:MovieLens-1m [28]和DBbook2014 2.兩個數(shù)據(jù)集都包含用戶及其對電影或書籍的評級,然后通過將項目映射到DBPedia實體(如果有)來對LODRecSys [15,28,29]進行細化??捎玫挠成?。在模擬隱式反饋[40]的大多數(shù)項目推薦工作之后,我們將現(xiàn)有評級視為積極的互動,并通過隨機破壞項目來產生負面評價。為了從DBPedia收集相關事實,我們只考慮那些與具有映射項的實體直接相關的三元組,無論實體用作哪個角色(即主體或對象)。然后我們通過以下方式預處理這兩個數(shù)據(jù)集:過濾掉低頻率用戶和項目(即,在MovieLens中低于10,在DBbook中低于5),過濾掉不常見的實體(即兩個數(shù)據(jù)集中低于10),切斷不相關的關系并手動合并類似的關系。表1顯示了MovieLens-1m和DBbook2014數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)3。預處理后,Movielens-1m中有6,040個用戶和3,230個項目,998,539個評級,每個用戶的平均評分數(shù)為165,空間率為94.9%。 DBbook2014中的數(shù)據(jù)sparisity問題更嚴重。它由5,576個用戶和2,680個項目組成,共有65,961個評級,其中每個用戶的平均評分數(shù)為12,并且sparisity率達到99.6%。兩個數(shù)據(jù)集中使用的三元組具有相同的比例,其中MovieLens 1m的子圖由434,189個三元組組成,具有14,708個實體和20個關系,而DBbook的子圖具有334,511個三元組,具有13,882個實體和13個關系。請注意,MovieLens-1m中用于傳輸?shù)捻椖亢蛯嶓w之間的對齊比DBbook2014中的對齊要少。
7.2 基線
對于項目推薦,我們將我們提出的模型與以下最先進的基線進行比較,這些基線涉及典型的基于相似性的方法和基于KG的方法。
?典型的基于相似性的方法:我們選擇廣泛使用的協(xié)同過濾模型FM [33]和BPRMF [34],因為它們是其他基線的基礎,并且還在許多基準數(shù)據(jù)集上實現(xiàn)了最先進的性能。
?CFKG [46]整合了兩個來源的數(shù)據(jù),并在一個統(tǒng)一的圖表上應用TransE,包括用戶,項目,實體和關系;
?CKE [44]結合了來自不同來源的各種項目嵌入,包括KG上的TransR;
?CoFM [31]通過共享對齊項目和實體的參數(shù)或正規(guī)化來聯(lián)合培訓FM和TransE。我們將這兩個方案分別標記為CoFM(份額)和CoFM(reg)。
對于KG完成,我們選擇在該領域廣泛使用的典型方法TransE [2],TransH [42]和TransR [23]。此外,我們評估上述基于KG的方法,即使它們在原始論文中沒有這樣做,以調查不同轉移方案的影響。為了公平比較,我們在發(fā)布的代碼中仔細重新實現(xiàn)它們,因為它們沒有在相同的數(shù)據(jù)集上報告結果,我們找不到它們發(fā)布的代碼。請注意,我們刪除了輔助信息建模的組件,如評論和可視信息,因為它們在數(shù)據(jù)集中不可用,并且超出了本文的范圍。
?
7.3 訓練細節(jié)
我們通過以7:1:2的比例隨機分割數(shù)據(jù)集來構建訓練集,驗證集和測試集。對于項目推薦,我們?yōu)槊總€用戶分割項目并確保測試集中至少存在一個項目。
對于超參數(shù),我們在BPRMF和TransE上應用網(wǎng)格搜索以找到每個任務的最佳設置,并將它們用于所有其他模型,因為它們共享基本的學習思路4。在{0.0005,0.005,0.001,0.05,0.01}中搜索學習速率,L2正則化的系數(shù)在{10-5,10-4,10-3,10-2,10-1,0}中,并且優(yōu)化方法包括自適應矩估計(Adam),Adagrad和SGD。最后,我們將項目推薦和KG完成的學習率分別設置為0.005和0.001,將L2系數(shù)設置為10-5和0,并將優(yōu)化方法設置為Adagrad和Adam。特別是,對于涉及兩個任務的模型,我們嘗試了兩組參數(shù),并且由于其優(yōu)越的性能而選擇后一組參數(shù)。其他超極表根據(jù)經驗設置如下:批量大小為256,嵌入大小為100,我們在驗證集上執(zhí)行早期停止策略。我們預先確定TUP中的首選項數(shù)量分別為20和13,分別為MovieLens-1m和DBbook2014,它們是根據(jù)收集的三元組的關系設置的。對于涉及兩個任務的模型(即CFKG,CKE,CoFM和KTUP),我們在{0.7,0.5,0.3}搜索后,在兩個數(shù)據(jù)集上將聯(lián)合超參數(shù)λ設置為0.5和0.7,以平衡它們的影響,并使用基本模型的預訓練嵌入(即BPRMF和TransE)。
本文的主要目標是在聯(lián)合培訓期間調查每項任務的相互影響,而不是通過調整參數(shù)來實現(xiàn)最佳性能。因此,我們提出的模型以及基線方法針對每個數(shù)據(jù)集進行一次訓練,并評估項目推薦和KG完成的任務。
?
7.4 項目推薦
在本節(jié)中,我們評估我們的模型以及項目推薦任務的基線方法。 給定用戶,我們將測試集中的所有項目作為候選者,并根據(jù)基于用戶和項目的嵌入計算的分數(shù)對它們進行排名。 因此,排在最前面的N個項目是推薦項目。
7.4.1度量標準。 我們使用了以前工作中廣泛使用的五個評估指標:
?Precision @ N:這是與用戶相關的推薦項目的一部分。 我們將所有用戶的平均值計算為最終精度。
?召回@ N:成功推薦的與用戶相關的項目比例。 我們計算所有用戶的平均值作為最終召回。
?F1得分@N:它是等級N的精度的調和平均值,并且是等級N的回憶。
?命中率@N:如果在前N項中推薦任何金項,則為1,否則為0.我們計算所有用戶的平均值作為最終命中率得分。
?nDCG @ N:標準化折扣累積增益(nDCG)是排名質量的標準度量,考慮排名列表前N中正面和負面項目之間的分級相關性。
7.4.2總體結果。表2顯示了我們提出的模型的總體性能以及基線方法,其中硬和軟表示4.1節(jié)中的兩種偏好誘導策略。
我們可以觀察到:
?與兩個數(shù)據(jù)集上的基線方法相比,我們提出的方法表現(xiàn)最佳。特別是,TUP與其他基于KG的模型相比具有競爭力,同時它不需要任何其他信息。這是因為TUP會自動從用戶 - 項目交互中推斷出偏好的知識,并且在交互數(shù)據(jù)量足夠時(例如MovieLens-1m)表現(xiàn)得更好。通過整合KG,KTUP在DBbook上進一步呈現(xiàn)出比MovieLens更有希望的改進(即,在F1中增加11.06%,增加4.43%),這意味著知識對稀疏數(shù)據(jù)更有幫助。
?僅當硬策略用于MovieLens-1m上的TUP時,硬策略的性能優(yōu)于軟策略,這意味著誘導確定性用戶權限需要足夠的數(shù)據(jù),并且軟策略更加健壯。
?CFKG和CoFM的性能略好于MovieLens-1m上的典型模型(即FM和BPRMF),但在DBbook2014的稀疏數(shù)據(jù)集上表現(xiàn)更差。一個可能的原因是它們都通過強制它們的嵌入與對齊的項目相似來轉移實體,導致嵌入中已經存在的知識的丟失,并且當訓練數(shù)據(jù)不足時損失變得更加嚴重。
?CKE主要在兩個數(shù)據(jù)集上實現(xiàn)了相當好的性能,因為它結合了來自兩個源的信息的項目和實體的嵌入,而不是將它們與潛在空間中的類似位置對齊。
?由于相對充足的訓練數(shù)據(jù)和更簡單的測試(甚至使用隨機初始化,更高的值),所有模型在MovieLens-1m上的預制形成要比在DBbook2014上好得多。有趣的是,使用KG的改進在MovieLens的密集數(shù)據(jù)集上比在DBbook的稀疏數(shù)據(jù)集上更大。這違背了我們的直覺,即數(shù)據(jù)集越稀疏,它在吸收更豐富知識方面的潛力就越大。因此,我們根據(jù)訓練數(shù)據(jù)的不同sparisity水平進一步劃分測試集,并在下一節(jié)中研究KG對每個子集的影響。
圖4:不同稀疏度對MovieLens-1m的影響。 x軸顯示根據(jù)交互數(shù)劃分的10個用戶組,左y軸對應于指示每個用戶組中的交互數(shù)的條,右y軸表示曲線的F1-得分。
7.4.3培訓數(shù)據(jù)稀疏性的影響
為了研究數(shù)據(jù)稀疏性對知識轉移的影響,我們根據(jù)每個用戶的評級數(shù)將MovieLens-1m的測試集分成10個子集進行訓練; 同時我們也嘗試平衡每個子集中的用戶數(shù)量和評級。 F1評分的詳細結果如圖4所示。綠條表示每位用戶的平均評分數(shù),范圍從17到5635.我們將沒有KG知識的模型表示為虛線,其他模型表示為實線。
我們可以看到(1)當每個用戶的平均評級數(shù)在100到200之間時,基于KG的方法(即CKE和KTUP)比其他模型的表現(xiàn)最佳。(2)兩種模型之間的差距是 隨著訓練數(shù)據(jù)量的減少越來越近,當他們的訓練數(shù)據(jù)處于類似的精神程度時,改進與DBbook上的改進相似。 (3)同時,當平均評級為563(最左邊的條)時,差距幾乎消失,這意味著如果有足夠的訓練數(shù)據(jù),KG的影響可以忽略不計。 請注意,當平均評分大于89時,所有模型的性能都會變差??赡艿脑蚴怯脩粝矚g這么多項目,這些項目的偏好太普遍而無法捕獲。 (4)當用戶偏好相對簡單模型(即#rating <50)時,TUP優(yōu)于KTUP,顯示了充分利用用戶項交互進行偏好建模的有效性和必要性。
7.5知識圖譜補全
在本節(jié)中,我們評估KG完成的任務。它是預測給定三元組的缺失實體eh或et(eh,et,r)。對于每個缺失的實體,我們將所有實體作為候選者,并根據(jù)基于實體和關系嵌入計算的分數(shù)對它們進行排名。
7.5.1度量標準
我們使用了兩個在以前的工作中廣泛使用的評估指標[42]:
?命中率@N:如果未命中實體在前N個候選者中排名,則為1,否則為0.我們計算所有人的平均值
三胞胎作為最終命中率得分。
?平均等級:它是缺失實體的平均等級,越小越好。
?
7.5.2總體結果
表4顯示了整體性能。我們可以看到,除了MovieLens-1m上的平均等級值之外,KTUP幾乎優(yōu)于兩個數(shù)據(jù)集上的所有其他模型。我們認為這個指標不那么重要,因為它很容易被一個具有低等級的頑固三重[41]所減少。與TransH相比,MovieLens-1m的命中率與DBbook2014(2.67%vs。1.15%)的命中率相比有更大的提升,因為Movielens-1m包含更多用戶和項之間的連接,有助于在實體之間建模結構知識。我們還觀察到CFKG,CKE和CoFM與基本KG組件相比表現(xiàn)出性能下降:TransE和TransR。
?
一個原因可能是這些方法迫使對齊實體的嵌入滿足項目推薦的其他任務,而對齊的實體只是一小部分(即兩個數(shù)據(jù)集上的19.95%和18.25%),這實際上降低了學習的學習KG完成。另一個原因是用戶偏好的N對N問題對實體和關系的表征學習產生負面影響,特別是對于CFKG中的購買關系。 CKE考慮了這個問題,但TransR包含許多可訓練的參數(shù),并且在這么小的訓練集上不能很好地工作。
?
7.5.3處理N對N關系的能力
表3顯示了每個關系類別的單獨評估結果。在[2]之后,我們將關系分為四種類型:1對1,1對N,N對1和N對N.我們可以看到(1)TransR及其相關模型(即CKE)表現(xiàn)最差,這與上述整體性能一致。 (2)KTUP在N對N問題上實現(xiàn)了最佳性能,并且還與TransE和CoFM在1對1,1對N和N對1問題上具有競爭力,這表明了我們的能力。處理復雜關系并改進這兩項任務的方法。 (3)CFKG在N-N關系上的值比TransE低,這意味著統(tǒng)一圖可能引入了更加混亂的關系語義。 (4)CoFM在KG完成任務中具有競爭性,而在項目推薦中則較差,因為他們的知識轉移方案導致聯(lián)合訓練不穩(wěn)定。也就是說,難以控制知識轉移對哪個任務的積極影響,以及需要在每個任務上單獨訓練CoFM的不同參數(shù),這也在原始論文[31]中得出結論。
圖5:DBbook2014上兩個任務之間訓練曲線的相關性,用Pearson相關系數(shù)ρ表示。 x軸是訓練時期,左側y軸對應于通過命中率的KG完成,右側y軸是通過F1的項目推薦。 (請注意,我們將F1和命中率的值都縮放到相同的大小。)
7.6兩項任務的相互利益雖然已經對單獨的任務進行了評估,但仍不清楚不同的轉移方案如何生效。因此,我們研究了兩個任務的訓練曲線之間的相關性。直覺上,強相關意味著更完整的轉移學習,以及更好地利用彼此的補充信息。由于KG完成沒有F1測量,因此我們將其命中率對應于左側y軸,并且通過F1的項目推薦顯示在右側y軸上。
如圖5所示,我們可以看到KTUP和CFKG呈現(xiàn)出曲線之間最強的相關性,即一條曲線的增加和減少應同時反映在另一條曲線上。這意味著關系的轉移在共同訓練這兩項任務方面發(fā)揮著重要作用。然而,CFKG在機器人任務上表現(xiàn)不佳(如表2和表4所示)主要是因為2個原因。首先,它不能處理復雜的關系;第二,它只通過關系和偏好的整合來增加統(tǒng)一圖中的連通性,這實際上不是過渡性的。相反,KTUP結合了兩種結構知識的關系和偏好的嵌入,同時引入了N對N問題的超平面。由于轉移實體的一小部分,CoFM和CKE的曲線顯然不是強相關的。具體而言,CoFM強制對齊的實體和項目的嵌入相似,這可能導致不穩(wěn)定的訓練。 CKE通過組合嵌入來關注單向增強,因此在項目推薦中表現(xiàn)良好,但在KG完成方面表現(xiàn)更差。
7.7案例研究
在本節(jié)中,我們將介紹Movielens-1m的一個示例,以直觀地展示我們的可解釋性。左邊是與7部電影互動的用戶。 KTUP首先引導用戶對這些電影的偏好,并發(fā)現(xiàn)用戶關心的是isDirectorOf和starring的關系(4.1節(jié)中最受關注的偏好)。因此,它基于誘導的偏好根據(jù)等式16搜索最近的項目。我們在右側展示推薦的四部電影。特別推薦Batman Forever和Batman&Robin(電影),因為用戶會向導演Joel Schumacher表示偏好。同樣,對導演的偏愛也有助于誘導由Cameron Crowe執(zhí)導的電影Say Anything ......此外,用戶還喜歡主演,如伊甸園東部的詹姆斯迪恩(電影)和吉普賽的娜塔莉伍德(1962年的電影);在一起,系統(tǒng)建議另一部電影Rebel Without a Cause。
八、結論
在本文中,我們提出了一種新的基于翻譯的推薦模型TUP,并將其擴展為無縫集成KG完成,即KTUP。 TUP能夠對用戶和項目之間的各種隱式關系建模,這揭示了用戶對消費項目的偏好。 KTUP通過對齊的關系和權限進一步增強了模型的可解釋性,并通過聯(lián)合學習提高了兩個任務的性能。將來,我們感興趣的是在多跳實體關系上引入更復雜的用戶偏好,并引入KG推理(例如,規(guī)則挖掘)技術,用于看不見的用戶偏好以處理冷啟動問題。
九、參考文獻
Unifying Knowledge Graph Learning and Recommendation: Towards a Better Understanding of User Preferences
文獻獲取地址:https://arxiv.org/abs/1902.06236
總結
以上是生活随笔為你收集整理的【论文翻译】统一知识图谱学习和建议:更好地理解用户偏好的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中文幽默语料库构建与计算项目(幽默等级识
- 下一篇: 从源码角度分析Android系统的异常捕