當前位置：首頁 > 运维知识 > windows >内容正文

windows

《推荐系统实践》要点思维导图

發布時間：2025/4/16 windows 44 豆豆

生活随笔收集整理的這篇文章主要介紹了《推荐系统实践》要点思维导图小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

推薦系統實踐

1 好的推薦系統

1.1 基本任務：聯系用戶和物品

與分類目錄、搜索引擎一樣解決信息過載問題。

解決無明確目的的物品需求，并能發掘物品長尾。

1.2 推薦應用

應用于電子商務、視頻網站、音樂電臺、社交網絡、個性化閱讀、LBS、個性化郵件、定向廣告投放。

前端頁面、后臺日志和推薦算法三功能。

1.3 系統評測

1）實驗方法：離線實驗、用戶調查、在線實驗。

2）評測指標：

用戶滿意度（問卷）。

預測準確度（評分預測RMSE和MAE、TopN推薦準確率和召回率）。

覆蓋率（信息熵和基尼系數）。

多樣性、新穎性、驚喜度、信任度、實時性、健壯性、商業目標。

3）評測維度：用戶、物品、時間。

2 利用用戶行為數據

2.1用戶行為數據：正、負反饋

無上下文信息的隱性反饋數據

無上下文信息的顯性反饋數據

有上下文信息的隱性反饋數據

有上下文信息的顯性反饋數據

2.2 用戶行為分析

1)用戶活躍度和物品流行度的分布：長尾分布

2)用戶活躍度和物品流行度的關系：協同過濾推薦算法

基于領域的方法：UserCF和ItemCF

隱語義模型LFM

基于圖的隨機游走算法

2.3 算法及評測

訓練集和測試集、召回率、準確率、覆蓋率、流行度

UserCF：用戶相似度矩陣和用戶對物品的興趣度

ItemCF：物品相似度矩陣和用戶對物品的興趣度

LFM：P、Q矩陣SVD求解以及用戶對物品的興趣度

基于圖的模型（graph-based model）：度量頂點間相關性的算法，基于隨機游走的PersonalRank算法

3 推薦系統冷啟動問題

3.1 冷啟動問題

1)用戶冷啟動：解決新用戶個性化推薦

2)物品冷啟動：解決新物品推薦給感興趣用戶

3)系統冷啟動：解決新系統向用戶推薦物品

4)非個性化推薦：熱門排行榜

3.2 利用用戶注冊信息

1)人口統計學信息：年齡、性別、職業、住址等

2)用戶興趣描述

3)用戶站外行為數據：豆瓣、微博等社交網站的行為數據和社交數據

3.3 選擇合適的物品啟動用戶的興趣

1)熱門

2)代表性和區分性

3)多樣性

3.4 利用物品的內容信息

向量空間模型Vector Space Model，文本-分詞-實體檢測-關鍵詞排名-關鍵詞向量

LDA話題模型

ECML/PKDD 2011年物品冷啟動比賽

3.5 發揮專家的作用：專家樣本標注

音樂基因項目，標注400多個特征

電影基因項目，mood\plot\genres\time\period\praise\style\look\flag

4 利用用戶標簽數據

4.1 UGC標簽系統的代表應用

Delicious：網頁打標簽

CiteULike：協同過濾collaborative-filtering和評測evaluate

Last.fm：標簽云tag cloud

豆瓣：評論和社交網站，用戶打標簽

Hulu：視頻網站，熱門標簽

4.2 標簽系統中的推薦問題：標注時推薦和標簽行為推薦

標注行為：蘊涵用戶興趣信息

標簽流行度也符合長尾分布

標簽內容：物品種類、用戶觀點等

4.3 基于標簽的推薦系統

標簽行為：三元組（u,i,b）

SimpleTagBased算法

統計每個用戶常用的標簽

統計每個標簽標記最多的物品

先推薦常用再推薦相關標簽熱門物品

TagBasedTFIDF算法

借鑒TFIDF思想

TagBasedTFIDF++算法

適當懲罰熱門標簽和熱門物品

數據稀疏性：計算標簽相似度

標簽清理

4.4 基于圖的推薦算法

用戶、物品、標簽頂點，權重邊

4.5 基于標簽的推薦解釋

豆瓣：標簽云

用戶對物品的興趣

用戶對標簽的興趣tag preference

IterPopularTags算法

UserPopularTags算法

標簽與物品的相關度tag relevance

用戶推薦標簽

ECML/PKDD2008推薦比賽的算法

張量分解tensor factorization

基于LDA的算法

基于圖的算法

5 利用上下文信息

Sourcetone音樂推薦系統

5.1 時間上下文信息

用戶興趣會變化、物品有生命周期、季節效應

系統時間特性分析，三元組(u,i,t)

時間上下文推薦算法

1)最近最熱門RecentPopularity：物品i最近流行度

2)時間上下文的ItemCF

3)時間上下文的UserCF

時間段圖模型SGM：路徑融合算法

USGM：物品時間節點權重為0

ISGM：用戶時間節點權重為0

5.2 地點上下文信息：LBS

Hotpot服務

基于位置的推薦算法LARS：具有空間屬性的物品

興趣本地化

活動本地化

6 利用社交網絡數據

6.1 獲取社交網絡數據的途徑

電子郵件：郵箱地址

用戶注冊信息

用戶的位置數據

論壇和討論組

即時聊天工具

社交網站：社會圖譜和興趣圖譜

6.2 社交網絡數據簡介

雙向確認的社交網絡數據：Facebook和人人網，用戶關系要雙方確認

單向關注的社交網絡數據：Twitte和微博

基于社區的社交網絡數據：論壇

社交網絡用戶的入度和出度分布滿足長尾分布

6.3 基于社交網絡的推薦：ACM2010年推薦系統大會

基于領域的社會化推薦算法：用戶之間社會熟悉度和對物品興趣相似度

基于圖的社會化推薦算法

大數據級別下內存不足問題：Twitter架構解決方案

社會化推薦系統的評測：Rashmi Sinha和Kirsten Swearingen對比協同推薦的論文

信息流推薦

Facebook和Twitter：用戶信息墻

EdgeRank算法：綜合信息流會話的時間、長度和用戶興趣相似度

6.4 給用戶推薦好友：鏈接預測，Jon Kleinberg的文章

基于內容的匹配

基于共同興趣的好友推薦

基于社交網絡圖的好友推薦：Slashdot社交網絡數據集

好友推薦算法對比

InterestBased：興趣相似

SocailBased：社交網絡

SONA：IBM內部推薦算法

6.5 擴展要點

6度原理：任意兩個人都可以通過不超過6個人的路徑相互認識，即社交網絡圖的直徑為6

六度原理的證明，均勻隨機圖，參考Random Graph書

社交網絡研究的兩個著名問題

如何度量人的重要性，即社交網絡頂點的中心度（centrality）

如何度量社交網絡中人與人之間的關系，即鏈接預測

Epinion數據集

Ma Hao矩陣分解的社會化推薦算法解決評分預測問題

矩陣分解模型中加入正則化項

具有社交關系的用戶的隱語義向量具有較高相似度

ACM2010年社會推薦比賽

社交網絡作為上下文

7 推薦系統實例

7.1 外圍架構

UI系統：網頁展示并與用戶交互

日志系統：記錄用戶的UI行為

數據收集和存儲

7.2 基于特征的推薦系統架構

特征種類

人口統計學特征

用戶行為特征

用戶話題特征

7.3 推薦引擎的架構

生成用戶的特征向量

用戶行為的種類

用戶行為產生的時間

用戶行為的次數

物品的熱門程度

特征-物品相關推薦

過濾模塊

用戶已經產生過行為的物品

候選物品以外的物品

質量很差的物品

排名模塊

新穎性排名

多樣性

時間多樣性

用戶反饋

MyMedia開源推薦系統架構

項目網站：http://www.mymediaproject.org/default.aspx

8 評分預測問題：三元組（u,i,r）

評分預測算法，Netflix Prize大賽

平均值

全局平均值

用戶評分平均值

物品評分平均值

用戶分類對物品分類的平均值

用戶和物品的平均分

用戶活躍度和物品流行度

基于領域的方法：結合用戶興趣相似的用戶對物品的評分

余弦相似度

皮爾遜系數

Sarwar修正余弦相似度

隱語義模型和矩陣分解模型

降維補全矩評分矩陣

傳統SVD分解

Simon Funk的SVD分解

加入偏置項后的LFM

考慮領域影響的LFM

加入時間信息

基于領域的模型融合時間信息

基于矩陣分解的模型融合時間信息

模型融合

模型級聯聯合

模型加權聯合

總結

以上是生活随笔為你收集整理的《推荐系统实践》要点思维导图的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据平台】python中文分词工具ji
下一篇：【数据平台】pandas将一列中的文本拆

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

windows

《推荐系统实践》要点思维导图

推薦系統實踐

1 好的推薦系統

1.1 基本任務：聯系用戶和物品

與分類目錄、搜索引擎一樣解決信息過載問題。

解決無明確目的的物品需求，并能發掘物品長尾。

1.2 推薦應用

應用于電子商務、視頻網站、音樂電臺、社交網絡、個性化閱讀、LBS、個性化郵件、定向廣告投放。

前端頁面、后臺日志和推薦算法三功能。

1.3 系統評測

1）實驗方法：離線實驗、用戶調查、在線實驗。

2）評測指標：

用戶滿意度（問卷）。

預測準確度（評分預測RMSE和MAE、TopN推薦準確率和召回率）。

覆蓋率（信息熵和基尼系數）。

多樣性、新穎性、驚喜度、信任度、實時性、健壯性、商業目標。

3）評測維度：用戶、物品、時間。

2 利用用戶行為數據

2.1用戶行為數據：正、負反饋

無上下文信息的隱性反饋數據

無上下文信息的顯性反饋數據

有上下文信息的隱性反饋數據

有上下文信息的顯性反饋數據

2.2 用戶行為分析

1)用戶活躍度和物品流行度的分布：長尾分布

2)用戶活躍度和物品流行度的關系：協同過濾推薦算法

基于領域的方法：UserCF和ItemCF

隱語義模型LFM

基于圖的隨機游走算法

2.3 算法及評測

訓練集和測試集、召回率、準確率、覆蓋率、流行度

UserCF：用戶相似度矩陣和用戶對物品的興趣度

ItemCF：物品相似度矩陣和用戶對物品的興趣度

LFM：P、Q矩陣SVD求解以及用戶對物品的興趣度

基于圖的模型（graph-based model）：度量頂點間相關性的算法，基于隨機游走的PersonalRank算法

3 推薦系統冷啟動問題

3.1 冷啟動問題

1)用戶冷啟動：解決新用戶個性化推薦

2)物品冷啟動：解決新物品推薦給感興趣用戶

3)系統冷啟動：解決新系統向用戶推薦物品

4)非個性化推薦：熱門排行榜

3.2 利用用戶注冊信息

1)人口統計學信息：年齡、性別、職業、住址等

2)用戶興趣描述

3)用戶站外行為數據：豆瓣、微博等社交網站的行為數據和社交數據

3.3 選擇合適的物品啟動用戶的興趣

1)熱門

2)代表性和區分性

3)多樣性

3.4 利用物品的內容信息

向量空間模型Vector Space Model，文本-分詞-實體檢測-關鍵詞排名-關鍵詞向量

LDA話題模型

ECML/PKDD 2011年物品冷啟動比賽

3.5 發揮專家的作用：專家樣本標注

音樂基因項目，標注400多個特征

電影基因項目，mood\plot\genres\time\period\praise\style\look\flag

4 利用用戶標簽數據

4.1 UGC標簽系統的代表應用

Delicious：網頁打標簽

CiteULike：協同過濾collaborative-filtering和評測evaluate

Last.fm：標簽云tag cloud

豆瓣：評論和社交網站，用戶打標簽

Hulu：視頻網站，熱門標簽

4.2 標簽系統中的推薦問題：標注時推薦和標簽行為推薦

標注行為：蘊涵用戶興趣信息

標簽流行度也符合長尾分布

標簽內容：物品種類、用戶觀點等

4.3 基于標簽的推薦系統

標簽行為：三元組（u,i,b）

SimpleTagBased算法

統計每個用戶常用的標簽

統計每個標簽標記最多的物品

先推薦常用再推薦相關標簽熱門物品

TagBasedTFIDF算法

借鑒TFIDF思想

TagBasedTFIDF++算法

適當懲罰熱門標簽和熱門物品

數據稀疏性：計算標簽相似度