《推荐系统实践》要点思维导图
生活随笔
收集整理的這篇文章主要介紹了
《推荐系统实践》要点思维导图
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
推薦系統實踐
1 好的推薦系統
1.1 基本任務:聯系用戶和物品
與分類目錄、搜索引擎一樣解決信息過載問題。
解決無明確目的的物品需求,并能發掘物品長尾。
1.2 推薦應用
應用于電子商務、視頻網站、音樂電臺、社交網絡、個性化閱讀、LBS、個性化郵件、定向廣告投放。
前端頁面、后臺日志和推薦算法三功能。
1.3 系統評測
1)實驗方法:離線實驗、用戶調查、在線實驗。
2)評測指標:
用戶滿意度(問卷)。
預測準確度(評分預測RMSE和MAE、TopN推薦準確率和召回率)。
覆蓋率(信息熵和基尼系數)。
多樣性、新穎性、驚喜度、信任度、實時性、健壯性、商業目標。
3)評測維度:用戶、物品、時間。
2 利用用戶行為數據
2.1用戶行為數據:正、負反饋
無上下文信息的隱性反饋數據
無上下文信息的顯性反饋數據
有上下文信息的隱性反饋數據
有上下文信息的顯性反饋數據
2.2 用戶行為分析
1)用戶活躍度和物品流行度的分布:長尾分布
2)用戶活躍度和物品流行度的關系:協同過濾推薦算法
基于領域的方法:UserCF和ItemCF
隱語義模型LFM
基于圖的隨機游走算法
2.3 算法及評測
訓練集和測試集、召回率、準確率、覆蓋率、流行度
UserCF:用戶相似度矩陣和用戶對物品的興趣度
ItemCF:物品相似度矩陣和用戶對物品的興趣度
LFM:P、Q矩陣SVD求解以及用戶對物品的興趣度
基于圖的模型(graph-based model):度量頂點間相關性的算法,基于隨機游走的PersonalRank算法
3 推薦系統冷啟動問題
3.1 冷啟動問題
1)用戶冷啟動:解決新用戶個性化推薦
2)物品冷啟動:解決新物品推薦給感興趣用戶
3)系統冷啟動:解決新系統向用戶推薦物品
4)非個性化推薦:熱門排行榜
3.2 利用用戶注冊信息
1)人口統計學信息:年齡、性別、職業、住址等
2)用戶興趣描述
3)用戶站外行為數據:豆瓣、微博等社交網站的行為數據和社交數據
3.3 選擇合適的物品啟動用戶的興趣
1)熱門
2)代表性和區分性
3)多樣性
3.4 利用物品的內容信息
向量空間模型Vector Space Model,文本-分詞-實體檢測-關鍵詞排名-關鍵詞向量
LDA話題模型
ECML/PKDD 2011年物品冷啟動比賽
3.5 發揮專家的作用:專家樣本標注
音樂基因項目,標注400多個特征
電影基因項目,mood\plot\genres\time\period\praise\style\look\flag
4 利用用戶標簽數據
4.1 UGC標簽系統的代表應用
Delicious:網頁打標簽
CiteULike:協同過濾collaborative-filtering和評測evaluate
Last.fm:標簽云tag cloud
豆瓣:評論和社交網站,用戶打標簽
Hulu:視頻網站,熱門標簽
4.2 標簽系統中的推薦問題:標注時推薦和標簽行為推薦
標注行為:蘊涵用戶興趣信息
標簽流行度也符合長尾分布
標簽內容:物品種類、用戶觀點等
4.3 基于標簽的推薦系統
標簽行為:三元組(u,i,b)
SimpleTagBased算法
統計每個用戶常用的標簽
統計每個標簽標記最多的物品
先推薦常用再推薦相關標簽熱門物品
TagBasedTFIDF算法
借鑒TFIDF思想
TagBasedTFIDF++算法
適當懲罰熱門標簽和熱門物品
數據稀疏性:計算標簽相似度
標簽清理
4.4 基于圖的推薦算法
用戶、物品、標簽頂點,權重邊
4.5 基于標簽的推薦解釋
豆瓣:標簽云
用戶對物品的興趣
用戶對標簽的興趣tag preference
IterPopularTags算法
UserPopularTags算法
標簽與物品的相關度tag relevance
用戶推薦標簽
ECML/PKDD2008推薦比賽的算法
張量分解tensor factorization
基于LDA的算法
基于圖的算法
5 利用上下文信息
Sourcetone音樂推薦系統
5.1 時間上下文信息
用戶興趣會變化、物品有生命周期、季節效應
系統時間特性分析,三元組(u,i,t)
推薦系統的實時性
推薦算法的時間多樣性
時間上下文推薦算法
1)最近最熱門RecentPopularity:物品i最近流行度
2)時間上下文的ItemCF
3)時間上下文的UserCF
時間段圖模型SGM:路徑融合算法
USGM:物品時間節點權重為0
ISGM:用戶時間節點權重為0
5.2 地點上下文信息:LBS
Hotpot服務
基于位置的推薦算法LARS:具有空間屬性的物品
興趣本地化
活動本地化
6 利用社交網絡數據
6.1 獲取社交網絡數據的途徑
電子郵件:郵箱地址
用戶注冊信息
用戶的位置數據
論壇和討論組
即時聊天工具
社交網站:社會圖譜和興趣圖譜
6.2 社交網絡數據簡介
雙向確認的社交網絡數據:Facebook和人人網,用戶關系要雙方確認
單向關注的社交網絡數據:Twitte和微博
基于社區的社交網絡數據:論壇
社交網絡用戶的入度和出度分布滿足長尾分布
6.3 基于社交網絡的推薦:ACM2010年推薦系統大會
基于領域的社會化推薦算法:用戶之間社會熟悉度和對物品興趣相似度
基于圖的社會化推薦算法
大數據級別下內存不足問題:Twitter架構解決方案
社會化推薦系統的評測:Rashmi Sinha和Kirsten Swearingen對比協同推薦的論文
信息流推薦
Facebook和Twitter:用戶信息墻
EdgeRank算法:綜合信息流會話的時間、長度和用戶興趣相似度
6.4 給用戶推薦好友:鏈接預測,Jon Kleinberg的文章
基于內容的匹配
基于共同興趣的好友推薦
基于社交網絡圖的好友推薦:Slashdot社交網絡數據集
好友推薦算法對比
InterestBased:興趣相似
SocailBased:社交網絡
SONA:IBM內部推薦算法
6.5 擴展要點
6度原理:任意兩個人都可以通過不超過6個人的路徑相互認識,即社交網絡圖的直徑為6
六度原理的證明,均勻隨機圖,參考Random Graph書
社交網絡研究的兩個著名問題
如何度量人的重要性,即社交網絡頂點的中心度(centrality)
如何度量社交網絡中人與人之間的關系,即鏈接預測
Epinion數據集
Ma Hao矩陣分解的社會化推薦算法解決評分預測問題
矩陣分解模型中加入正則化項
具有社交關系的用戶的隱語義向量具有較高相似度
ACM2010年社會推薦比賽
社交網絡作為上下文
7 推薦系統實例
7.1 外圍架構
UI系統:網頁展示并與用戶交互
日志系統:記錄用戶的UI行為
數據收集和存儲
7.2 基于特征的推薦系統架構
特征種類
人口統計學特征
用戶行為特征
用戶話題特征
推薦系統架構圖
每個推薦引擎負責一類特征或一類任務,代表一種推薦策略
7.3 推薦引擎的架構
生成用戶的特征向量
用戶行為的種類
用戶行為產生的時間
用戶行為的次數
物品的熱門程度
特征-物品相關推薦
過濾模塊
用戶已經產生過行為的物品
候選物品以外的物品
質量很差的物品
排名模塊
新穎性排名
推薦用戶不知道的、長尾中的物品
多樣性
時間多樣性
用戶反饋
MyMedia開源推薦系統架構
項目網站:http://www.mymediaproject.org/default.aspx
8 評分預測問題:三元組(u,i,r)
評分預測算法,Netflix Prize大賽
平均值
全局平均值
用戶評分平均值
物品評分平均值
用戶分類對物品分類的平均值
用戶和物品的平均分
用戶活躍度和物品流行度
基于領域的方法:結合用戶興趣相似的用戶對物品的評分
余弦相似度
皮爾遜系數
Sarwar修正余弦相似度
隱語義模型和矩陣分解模型
降維補全矩評分矩陣
傳統SVD分解
Simon Funk的SVD分解
加入偏置項后的LFM
考慮領域影響的LFM
加入時間信息
基于領域的模型融合時間信息
基于矩陣分解的模型融合時間信息
模型融合
模型級聯聯合
模型加權聯合
總結
以上是生活随笔為你收集整理的《推荐系统实践》要点思维导图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据平台】python中文分词工具ji
- 下一篇: 【数据平台】pandas将一列中的文本拆