论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo (ICML 2008)
0 摘要
????????低秩矩陣逼近方法是協(xié)同過濾中最簡單、最有效的方法之一。這類模型通常通過尋找模型參數(shù)的MAP估計來擬合數(shù)據(jù),這一過程即使在非常大的數(shù)據(jù)集上也能有效地執(zhí)行。
????????然而,除非正則化參數(shù)被仔細地調(diào)整,否則這種方法很容易過度擬合,因為它找到了參數(shù)的單點估計。
????????本文給出了概率矩陣分解(PMF)模型的完全貝葉斯處理方法,該方法通過對所有模型參數(shù)和超參數(shù)進行整合使用來自動控制模型容量。
????????我們表明,貝葉斯PMF模型可以有效地訓(xùn)練使用馬爾可夫鏈蒙特卡羅方法,將其應(yīng)用到Netflix數(shù)據(jù)集,其中包含超過1億電影評級。所得模型的預(yù)測精度明顯高于使用MAP估計訓(xùn)練的PMF模型。
1 introduction
????????N個用戶對M部電影的N ×M偏好評分矩陣,是由一個D× N的用戶系數(shù)矩陣U和D×M的因子矩陣V的乘積建模而成的。訓(xùn)練這樣的模型相當(dāng)于在給定的損失函數(shù)下找到觀測到的N × M目標(biāo)矩陣R的最佳近似。(使得U和V的乘積接近R)
????????在實踐中,我們通常對預(yù)測新用戶/電影對的評級感興趣,而不是估計模型參數(shù)。這個觀點建議采用貝葉斯方法來解決涉及到整合模型參數(shù)的問題。在本文中,我們描述了一個完全貝葉斯處理的概率矩陣分解(PMF)模型。
????????我們模型的特點是在該模型中使用了馬爾可夫鏈蒙特卡羅(MCMC)方法進行近似推理。在實踐中,MCMC方法很少用于大規(guī)模的問題,因為實踐者認為它們非常慢。在本文中,我們證明MCMC可以成功地應(yīng)用于大型、稀疏和非常不平衡的Netflix數(shù)據(jù)集,該數(shù)據(jù)集包含超過1億用戶/電影評級。
????????我們還表明,與使用MAP訓(xùn)練的標(biāo)準(zhǔn)PMF模型相比,它顯著提高了模型的預(yù)測精度,特別是對于不經(jīng)常使用的用戶。(使用MAP的PMF模型,它的正則化參數(shù)需要在驗證集上經(jīng)過仔細調(diào)整。)
2 PMF (Probabilistic Matrix Factorization)
線性代數(shù)筆記:概率矩陣分解 Probabilistic Matrix Factorization (PMF)_UQI-LIUWJ的博客-CSDN博客_pmf模型
?PMF的假設(shè)條件:
?其中表示均值為μ,精度(協(xié)方差矩陣的倒數(shù))為α的高斯分布
?表示示性函數(shù),當(dāng)用戶i對電影j有打分的時候,就是1
????????在這個模型中,學(xué)習(xí)是通過在固定超參數(shù)的電影特征和用戶特征的前提下,最大化對數(shù)后驗來實現(xiàn)的
? ? ? ? ?
? ? ? ? ?最大化對數(shù)后驗概率 等價于最小化如下的損失函數(shù):
?
其中:
?
表示Frobenius 范數(shù),見線性代數(shù)筆記:Frobenius 范數(shù)_UQI-LIUWJ的博客-CSDN博客)
?????????這種訓(xùn)練過程的主要缺點是需要手動的復(fù)雜性控制,這對于使模型很好地泛化至關(guān)重要,特別是在稀疏和不平衡的數(shù)據(jù)集上。
????????控制模型復(fù)雜度的一種方法是尋找合適的正則化參數(shù)λU和λV的值。例如,我們可以考慮一組合理的參數(shù)值,針對每個參數(shù)設(shè)置訓(xùn)練一個模型,并選擇在驗證集上表現(xiàn)最好的模型。然而,這種方法在計算上非常昂貴,因為它需要訓(xùn)練大量模型,而不是單個模型。
????????我們可以為超參數(shù)引入先驗,并在參數(shù)和超參數(shù)上最大化模型的對數(shù)后驗,從而允許基于訓(xùn)練數(shù)據(jù)自動控制模型的復(fù)雜性?。
????????在下一節(jié)中,我們將描述使用MCMC方法集成模型參數(shù)和超參數(shù)的PMF模型的完全貝葉斯處理,它提供了完全自動的復(fù)雜性控制。
3 BPMF (Bayesian Probabilistic Matrix Factorization)
3.1 模型
BPMF的圖像化模型是由下圖(右)展示的【下圖(左)是PMF的圖,以作對比】:
和PMF一樣 觀測打分矩陣的概率分布也是如式(1)所示
?用戶特征矩陣和打分特征矩陣的先驗如下:
? 對于用戶特征和電影打分特征的超參數(shù)和,它們滿足如下的高斯威沙特分布?概率統(tǒng)計筆記:高斯威沙特分布_UQI-LIUWJ的博客-CSDN博客
????????
W是有著v0自由度,D×D維度協(xié)方差矩陣的威沙特分布,它的概率分布如下:
?其中C是正則化長度。為了方便起見,我們令
在我們的實驗中,我們令v0=D,W0=I,μ0=0?
?3.2 預(yù)測
????????預(yù)測的打分矩陣R*的概率分布如下:
?
?????????由于后驗的復(fù)雜性,準(zhǔn)確評估這種預(yù)測分布在分析上是難以處理的,我們需要訴諸于近似推斷。
? ? ? ? ?我們這里使用MCMC來進行近似
????????
? ? ? ? ? 其中,樣本由一個馬爾可夫鏈生成,這個馬爾可夫鏈的平穩(wěn)分布是模型參數(shù)和超參數(shù)()的后驗分布。
????????基于蒙特卡羅的方法的優(yōu)點是它們在漸近中產(chǎn)生精確的結(jié)果。然而,在實踐中,MCMC方法通常計算量較大,因此它們的使用僅限于小規(guī)模問題。
?3.3 推斷?
?
每完成這樣一輪,稱為一個Epoch。隨著epoch增加,生成的預(yù)測矩陣R的分布逐漸準(zhǔn)確。
...............................................................................................................
?3.3.1 采樣θU
??
?從一個高斯威沙特分布里面提取
?其中
?
?推導(dǎo)過程如下:
BPMF論文輔助筆記: 固定U,更新θU 部分推導(dǎo)_UQI-LIUWJ的博客-CSDN博客
3.3.2 采樣θV
和3.3.1 類似,只不過N 換成M,U換成V
3.3.3? 固定R,θU,V,采樣Ui
(在論文中,α設(shè)置為2)
從一個高斯分布里面采樣Ui
其中
?
推導(dǎo)過程如下:?BPMF論文輔助筆記:采樣Ui 部分推導(dǎo)_UQI-LIUWJ的博客-CSDN博客
3.3.4 固定R,θV,U,采樣Vi
和3.3.3 類似,只不過V換成U,M換成N
4 實驗部分
4.1 數(shù)據(jù)集
????????Netflix收集的數(shù)據(jù)代表了Netflix在1998年10月至2005年12月間獲得的所有收視率的分布。
????????訓(xùn)練數(shù)據(jù)集由480,189個隨機選擇的匿名用戶對17,770個電影標(biāo)題的100,480,507個評分組成。(如果每個人都看完了所有的電影的話,理論上是8,532,958,530對用戶-電影對)作為訓(xùn)練數(shù)據(jù)的一部分,Netflix還提供了包含1408395個驗證數(shù)據(jù)。
????????此外,Netflix還提供了一個包含2817131對用戶/電影對的測試集,不提供評分。這些用戶/電影對是從訓(xùn)練數(shù)據(jù)集中的用戶子集中最近的評分中選擇的。通過向Netflix提交預(yù)測的評分,然后發(fā)布測試集未知部分的均方根誤差(RMSE)來評估性能。
????????作為基準(zhǔn),Netflix提供了基于相同數(shù)據(jù)訓(xùn)練的自己系統(tǒng)的測試分數(shù)0.9514。
?注:左圖中BPMF不是一條平行于x軸的直線,而是斜率很緩的向下斜線
總結(jié)
以上是生活随笔為你收集整理的论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo (ICML 2008)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MDP 笔记:Value Iterati
- 下一篇: BPMF论文辅助笔记: 固定U,更新θU