推荐系统常用术语 [ACM暑校]
1. 推薦系統
推薦系統相當于信息的“過濾器”,它旨在解決信息過載的問題,幫助人們更好地作出決策。它的主要原理是根據用戶過去的行為(比如購買、評分、點擊等)來建立用戶興趣模型,之后利用一定的推薦算法,把用戶最可能感興趣的內容推薦給用戶,如下圖:
- 召回(recall)
從海量(數千萬)item中粗選出幾百或者上千的候選集的過程,可以理解為向用戶粗選一批待推薦的商品。
- 排序(sort)
從召回的上千候選集中,預測出用戶的點擊概率,以此排序,給出最終向用戶推薦的結果集。
2. 數據基礎
- 用戶數據(user)
用來建立用戶模型的數據,因不同推薦算法而不同,典型的數據包括用戶興趣點、用戶profile、用戶的社交好友關系等。
- 內容數據(item)
??用來描述被推薦內容主要屬性的數據,這些屬性都是跟具體的內容相關的,如一部電影的導演、演員、類型和風格等。
- 用戶-內容數據(user-item)
?用戶-內容交互是指反映用戶與內容內在聯系的數據,分為隱式和顯式兩種;顯式主要是指評價、打分、購買等能明顯反映用戶對內容興趣的交互數據,隱式指的是用戶的點擊、搜索記錄等間接反映用戶對內容興趣的交互數據。
3. 相關算法
- 基于內容的推薦(Content-based)
根據用戶過去喜歡的內容而推薦相似的內容。
- 基于協同過濾的推薦(Collaborative Filtering,CF)
根據與當前用戶相似的用戶的興趣點,給當前用戶推薦相似的內容。
- 基于人口統計學的推薦(Demographic-based)
?根據用戶共同的年齡、地域等人口統計學信息進行共同的推薦。
- 基于知識的推薦(Knowledge-based)
?根據對用戶和內容的特定領域知識,給特定的用戶推薦特定的內容。
- 基于團體的推薦(Community-based)
?根據用戶的社交好友關系,給用戶推薦其好友感興趣的內容。
- 混合推薦(Hybrid Recommender System)
4. 數據預處理相關
推薦系統相關的數據預處理技術除了通常的歸一化、變量替換等以外,最主要的是相似度計算、抽樣和維度約減。
4.1 相似度計算
相似度通常有兩種衡量方式,一是直接計算相似度,二是計算距離,距離是本質上是相異程度的度量,距離越小,相似度越高。
- 相似度計算
余弦相似度(其幾何意義就是兩個向量的空間夾角的余弦值,取值范圍在-1到1之間。取值為-1表示完全相反,取值為1表示完全相同,其余值表示介于二者之間)、皮爾遜相關系數(意義是兩個隨機變量x和y之間的線性相關性,取值范圍在-1和1之間。-1表示負線性相關,1表示正線性相關,其余值表示介于二者之間)、Jaccard相關系數(用于集合相似度的一種方式)。
- 距離度量
歐幾里得距離(Euclidean Distance)、曼哈頓距離(Manhattan Distance)、切比雪夫距離(Chebyshev Distance)、閔可夫斯基距離(Minkowski Distance)、標準化歐氏距離(Standardized Euclidean Distance)、馬哈拉諾比斯距離(Mahalanobis Distance)
4.2 抽樣
?抽樣技術在數據挖掘中主要用在兩個地方:一是在數據預處理和后處理階段,為了避免計算規模過大,進行抽樣計算;二是在數據挖掘階段,通常會對訓練出來的模型進行交叉驗證,需要抽樣將所有樣本劃分為訓練集和測試集。
通常所說的抽樣都是隨機抽樣(random sampling),主要用于所有樣本點都可以認為沒有區分時適用。還有一種分層抽樣(striated sampling),在樣本需要顯著的分為不同的子集時,針對每個子集分別進行抽樣。
4.3 降維(Dimensionality Reduction)
?在統計學習理論中,當樣本的維度增加的時候,待學習的模型的復雜性是隨著維度呈指數增長的,這種現象通常稱為“維數災難(curse of dimensionality)”。這也就意味著,如果我們想在高維空間中學到和在低維空間中精度一樣高的模型,所需要的樣本數是呈指數增長的。
??降維通常是用來處理維災難問題的。通常降維有兩種思路,一是從高維數據中選出最能表達數據的一些維度,并用這些維度來代表數據,稱為特征選擇(feature selection);另一種是將高維數據通過某種trick變換映射到低維空間,稱為特征構造(feature extraction)。
主成分分析(Principal Component Analysis, PCA)是最主要的一種特征選擇方式。它通過特征分解能夠得到每一個維度對于整個數據的最小均方差的貢獻程度,從而定量判斷每一維對于數據所包含信息的貢獻度。然后保留最主要的一些維度,拋棄一些不顯著的維度,對數據進行降維。
異值分解(Singular Value Decomposition, SVD)是主要的特征構造方式。它通過矩陣分解的方式,將數據從高維空間映射到低維空間,對數據進行降維。
5. 數據挖掘-分類
?分類是數據挖掘的主要內容,方法眾多,各自都有不同數據假設和理論支持。這里簡單列舉最有代表性的一些算法。
- KNN(K-nearest Neighbor)
KNN是最容易理解的分類器,它不訓練任何模型。當有一個未知樣本需要預測時,它從已知樣本中找到與這個未知樣本距離最近的K個點,根據這K個點的類別來預測未知樣本的類別。它最主要的不足在于它需要的樣本量非常大,同時因為它沒有任何訓練的模型,每一次預測都要計算k次距離,計算量非常大。
- 決策樹(Decision Tree)
決策樹將分類過程抽象為一顆樹,它通過最大化信息增益的方式對樹的分支進行劃分,最終通過設置不純度的閾值來停止樹的劃分,形成最終的決策樹。它的主要優點在于模型的訓練和預測都非常快,不足在于模型的精度有時會低于其它分類器。不過,通過集群學習(ensemble learning)的方式能夠極大的克服這一點,如采用bagging思想的random forest和采用boosting思想的GBDT,都是決策樹的延伸,它們綜合多棵決策樹的分類結果來組合出更精確的分類器。
- 基于規則的分類器(Rule-based Classifier)
?基于規則的分類器通常都是利用“如果…則…”一類的規則來進行分類。其適用性有限,且要獲得靠譜的規則比較困難,一般用的較少。
- 貝葉斯分類器(Bayes classifier)
??貝葉斯分類器其實是一類分類器,主要是利用貝葉斯公式,通過估計先驗概率和似然概率,并利用一部分先驗信息,來計算給定樣本的各維度數據值的情況下,樣本屬于某個類別的概率。
- 人工神經網絡(Artificial Neural Network,ANN )
不必多言,當下最火效果最好的分類器。
- 支持向量機(Support Vector Machine, SVM)
支持向量機是線性分類器的代表。與貝葉斯分類器先估計概率密度然后計算判別函數不同,線性分類器都是直接估計線性判別式,并最小化某個目標函數,利用某種凸優化方法求解得到最終的線性判別式。這是最流行的分類器之一,通常認為它訓練、預測速度快,而且精度靠譜,所以在各種領域廣泛使用。
- 集成學習(Ensemble Learning)
集合若干個弱分類器來組合成一個強分類器,通常有bagging和boosting兩種思路。
6. 分類器性能評估
- Precision-recall:準確率-召回率,根據混淆矩陣計算
- F1:結合準確率-召回率的一個綜合指標
- ROC:直觀的曲線比較分類器性能
- AUC:ROC的定量化表達
- MAE:平均絕對誤差
- RMSE:平均根方誤差
總結
以上是生活随笔為你收集整理的推荐系统常用术语 [ACM暑校]的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅析Windows2000/XP服务与后
- 下一篇: 历代CPU最全明细参数表