又一篇论文让我开始怀疑起了人生...
目前非常多的推薦系統主要使用用戶的一些基礎反饋信息來作為最終的標簽進行模型的訓練,例如點擊/購買等,但是卻鮮有文章去進一步挖掘用戶的其它反饋,例如用戶對于該產品的評論,很多的評論相較于點擊等反饋更加具有表示性,比如你經常向一個用戶推薦一類商品,該商品雖然點擊率很高,但是該用戶之前已經評論了惡心之類的,這么繼續推下去的化很可能使得該用戶不再使用該軟件。
所以推薦系統里面的用戶評論是否有用呢,按理說是有用的,比如有些不良的商品點擊率極高,但是評論卻極差,通過挖掘評論的信息是可以很好地挖掘出此類的信息。
但是此類的評論信息是否真的有用,有多大的用戶都是一個問好,我們的實驗顯示:在大多數實踐情況下, 最近的系統加入評論的效果是不如簡單基線模型效果的;許多這樣的系統在模型中隱藏評論時,性能只會有微小的變化;所以本文得出了下面的幾個結論:
- 評論可能是非常重要的,但是最近的建模技術是很值得商榷的;
- 評論被作為一個正則而不是數據加入模型看起來更加有效;
- 我們英國更加關注一致的經驗評估,尤其是數據集的選擇和預處理策略;
問題設置
對比方案
為了評估推薦的reviews的作用,我們對比下面的幾種方案。
- TransNets:除了使用用戶和item 的評論文檔來提取潛在特征外,Transnets還使用當前的評審進行正則化。它有兩個子模型,一個關注給定評論中的情緒,另一個與DeepCoNN相同。正則化是通過最小化兩個分量中潛在空間之間的距離來實現的。我們還考慮了一個TransNets++版本,其中MF潛在特征與潛在文本特征相連接;
- NARRE(Neural Attentive Rating Regression):通過在評論文件中學習對單個評論的關注權重,主要改進了DeepCoNN關于評論獨立性的假設。NARRE還使用TextCNN為每個評論提取特征,并在默認情況下學習全局、用戶和條目偏差。
- MPCN(Multi-Pointer Co-Attention Networks for Recommendation):引入了一個與NARRE相同的intuition的深層架構,即并非每個評論都同等重要,并嘗試動態地推斷這種重要性。與NARRE的注意機制不同,MPCN提出了一種基于評論的pointer式學習機制來推斷評論的重要性。
實驗
1. 不同模型在不同數據集上的效果
HFT在絕大部分數據集上都表現出了非常好的效果;比很多新的NN網絡都要好很多;
2. 變動的稀疏性帶來的性能變化
- 隨著密度的增加,大多數方法的性能會更好。與其他方法相比,隨著密度的增加,HFT變得相對更差,因為我們對每個用戶和項目都有更多的評論,因此將評論建模為特征而不是正則化器是合乎邏輯的。文本作為基于特征的方法(如DeepCoNN和NARRE)性能的相對提高也支持了這一論點。我們還注意到隨著密度的增加,MF方法的相對效果隨著密度的增加而增加.
3. 評論什么時候有幫助
- 在這個實驗中,我們評估評論對于商品冷度譜的哪一部分是最有幫助的。我們根據訓練集的頻率對商品進行分組,并比較不同方法與僅使用偏差的方法在測試集均方誤差(越高越好)方面的改善情況。基于文本的方法對于較冷的項目(x軸左側)的差異最大。同樣明顯的是,HFT在0核數據集上的表現往往優于基于特征提取的方法,而對于5核數據集,情況恰恰相反。
4. 評論數據可以帶來多大的幫助
- 為了度量評論的重要性,我們設計了一個簡單的實驗,在這個實驗中,我們隨機地將數據集中x%的評論屏蔽掉。在這個修改過的數據集上,我們訓練了所有的方法,改變了x。只依賴于DeepCoNN和MPCN這樣的評審的方法會隨著我們隨機刪除評審而急劇下降。另一方面,像DeepCoNN++和NARRE這樣的方法往往相對不受影響。我們推測這種行為的產生是因為DeepCoNN++和NARRE中的偏差分量。
5. 一些啟示
通過我們的分析,我們觀察到了有趣的見解、異常現象:
- 在0核子集上,與MF相比,bias only模型的MSE差異相對較小。
- 最近發布的方法,如DeepCoNN、NARRE、MPCN等,在大多數評論數據集的0、5核版本中,均未能優于MF和HFT等更簡單的方法,這與基于最新文獻的預期形成了鮮明對比。
- 最近神經方法(如NARRE&DeepCoNN++)改進的主要原因是包含了用戶和項目偏差項,而不是它們的體系結構。
- 與原始設置相比,當評論被屏蔽時,基于深度學習的更高容量、基于深度學習的模型意外效果是變化最小的.
討論
- 復現&正確性:大多數論文中提到的官方結果使用了數據集的5-core版本,這是一個dense(可以說是不現實的)數據集設定,有點違背了這一系列研究的最初動機。我們還注意到,盡管數據預處理策略有所改變,但許多論文都直接復制了競爭對手方法的結果。另一個問題是超參數搜索不完整。最近所有的論文都顯示了基于MF的方法和所提出的基于綜述的方法之間的巨大差距,我們發現這是不支持的。
- 過擬合問題:我們推測過擬合是在未經處理的現有審查數據集上使用高度復雜模型的主要障礙。我們可以觀察到(1).DeepCoNN++、NARRE和NeuMF在提高數據集密度時,與僅使用偏差和HFT相比,DeepCoNN++、NARRE和NeuMF的效果相對提高;(2)對于低頻項,MF的性能往往比只使用bias的差。
- 評論作為一個正則使用會更好: 我們認為評論更擅長于規范潛藏因子,而不是作為更多的數據從中提取更好的特征,尤其是在冷啟動的情況下。我們的信任得到了以下事實的支持:與DeepCoNN(++)、NARRE和MPCN相比,HFT等更簡單的模型在更冷的商品上表現更好——所有這些模型都使用評論來建模用戶/商品的潛在特征。我們還想再次重申,我們的假設只在相對較冷(冷啟動)的條件下成立,并且隨著數據密度的增加,DeepCoNN++等更具表現力的方法開始表現得相對更好。
- MSE是否有問題?: 我們可以認為,新提出的模型確實會提升推薦的效果,但我們的評價標準(MSE)有限,我們應該考慮更相關的排序指標。
小結
通過分析評論和評論相結合的模型,我們得出結論:
- 評論數據可能很重要,但該領域目前的發展方向需要重新考慮。
- 結果中呈現的不一致,以及不切實際/不切實際的數據設置可能會阻礙整體的進度。
http://weixin.qq.com/r/XSjP1zrEzGezrX60931P (二維碼自動識別)
總結
以上是生活随笔為你收集整理的又一篇论文让我开始怀疑起了人生...的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 推荐系统炼丹笔记:Deep Retrie
- 下一篇: 推荐系统炼丹笔记:好想哭,我居然输在了内
