當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从源代码剖析Mahout推荐引擎

發(fā)布時間：2025/3/21 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了从源代码剖析Mahout推荐引擎小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Hadoop家族系列文章，主要介紹Hadoop家族產(chǎn)品，常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的項目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

從2011年開始，中國進入大數(shù)據(jù)風起云涌的時代，以Hadoop為代表的家族軟件，占據(jù)了大數(shù)據(jù)處理的廣闊地盤。開源界及廠商，所有數(shù)據(jù)軟件，無一不向Hadoop靠攏。Hadoop也從小眾的高富帥領域，變成了大數(shù)據(jù)開發(fā)的標準。在Hadoop原有技術基礎之上，出現(xiàn)了Hadoop家族產(chǎn)品，通過“大數(shù)據(jù)”概念不斷創(chuàng)新，推出科技進步。

作為IT界的開發(fā)人員，我們也要跟上節(jié)奏，抓住機遇，跟著Hadoop一起雄起！

關于作者：

張丹(Conan), 程序員Java,R,PHP,Javascript
weibo：@Conan_Z
blog:?http://blog.fens.me
email: bsspirit@gmail.com

轉(zhuǎn)載請注明出處：
http://blog.fens.me/mahout-recommend-engine/

前言

Mahout框架中cf.taste包實現(xiàn)了推薦算法引擎，它提供了一套完整的推薦算法工具集，同時規(guī)范了數(shù)據(jù)結構，并標準化了程序開發(fā)過程。應用推薦算法時，代碼也就7-8行，簡單地有點像R了。為了使用簡單的目標，Mahout推薦引擎必然要做到精巧的程序設計。

本文將介紹Mahout推薦引擎的程序設計。

Mahout推薦引擎概況

標準化的程序開發(fā)過程

數(shù)據(jù)模型

相似度算法工具集

近鄰算法工具集

推薦算法工具集

創(chuàng)建自己的推薦引擎構造器

1. Mahout推薦引擎概況

Mahout的推薦引擎，要從org.apache.mahout.cf.taste包說起。

packages的說明：

common: 公共類包括，異常，數(shù)據(jù)刷新接口，權重常量
eval: 定義構造器接口，類似于工廠模式
model: 定義數(shù)據(jù)模型接口
neighborhood: 定義近鄰算法的接口
recommender: 定義推薦算法的接口
similarity: 定義相似度算法的接口
transforms: 定義數(shù)據(jù)轉(zhuǎn)換的接口
hadoop: 基于hadoop的分步式算法的實現(xiàn)類
impl: 單機內(nèi)存算法實現(xiàn)類

從上面的package情況，我可以粗略地看出推薦引擎分為5個主要部分組成：數(shù)據(jù)模型，相似度算法，近鄰算法，推薦算法，算法評分器。

從數(shù)據(jù)處理能力上，算法可以分為：單機內(nèi)存算法，基于hadoop的分步式算法。

下面我們將基于單機內(nèi)存算法，研究Mahout的推薦引擎的結構。

2. 標準化的程序開發(fā)過程

以UserCF的推薦算法為例，官方建議我們的開發(fā)過程：

圖片摘自Mahout in Action

從上圖中我們可以看到，算法是被模塊化的，通過1,2,3,4的過程進行方法調(diào)用。

程序代碼：

public class UserCF {final static int NEIGHBORHOOD_NUM = 2;final static int RECOMMENDER_NUM = 3;public static void main(String[] args) throws IOException, TasteException {String file = "datafile/item.csv";DataModel model = new FileDataModel(new File(file));UserSimilarity user = new EuclideanDistanceSimilarity(model);NearestNUserNeighborhood neighbor = new NearestNUserNeighborhood(NEIGHBORHOOD_NUM, user, model);Recommender r = new GenericUserBasedRecommender(model, neighbor, user);LongPrimitiveIterator iter = model.getUserIDs();while (iter.hasNext()) {long uid = iter.nextLong();List list = r.recommend(uid, RECOMMENDER_NUM);System.out.printf("uid:%s", uid);for (RecommendedItem ritem : list) {System.out.printf("(%s,%f)", ritem.getItemID(), ritem.getValue());}System.out.println();}} }

我們調(diào)用算法的程序，要用到4個對象：DataModel, UserSimilarity, NearestNUserNeighborhood, Recommender。

3. 數(shù)據(jù)模型

Mahout的推薦引擎的數(shù)據(jù)模型，以DataModel接口為父類。

通過“策略模式”匹配不同的數(shù)據(jù)源，支持File, JDBC(MySQL, PostgreSQL), NoSQL(Cassandra, HBase, MongoDB)。

注：NoSQL的實現(xiàn)在mahout-integration-0.8.jar中。

數(shù)據(jù)格式支持2種：

GenericDataModel: 用戶ID，物品ID，用戶對物品的打分(UserID,ItemID,PreferenceValue)
GenericBooleanPrefDataModel: 用戶ID，物品ID (UserID,ItemID)，這種方式表達用戶是否瀏覽過該物品，但并未對物品進行打分。

4. 相似度算法工具集

相似度算法分為2種

基于用戶(UserCF)的相似度算法
基于物品(ItemCF)的相似度算法

1). 基于用戶(UserCF)的相似度算法

計算用戶的相似矩陣，可以通過上圖中幾種算法。

2). 基于物品(ItemCF)的相似度算法

計算物品的相似矩陣，可以通過上圖中幾種算法。

關于相似度距離的說明：

EuclideanDistanceSimilarity: 歐氏距離相似度

原理：利用歐式距離d定義的相似度s，s=1 / (1+d)。

范圍：[0,1]，值越大，說明d越小，也就是距離越近，則相似度越大。

說明：同皮爾森相似度一樣，該相似度也沒有考慮重疊數(shù)對結果的影響，同樣地，Mahout通過增加一個枚舉類型（Weighting）的參數(shù)來使得重疊數(shù)也成為計算相似度的影響因子。
PearsonCorrelationSimilarity: 皮爾森相似度

原理：用來反映兩個變量線性相關程度的統(tǒng)計量

范圍：[-1,1]，絕對值越大，說明相關性越強，負相關對于推薦的意義小。

說明：1、不考慮重疊的數(shù)量；2、如果只有一項重疊，無法計算相似性（計算過程被除數(shù)有n-1）；3、如果重疊的值都相等，也無法計算相似性（標準差為0，做除數(shù)）。

該相似度并不是最好的選擇，也不是最壞的選擇，只是因為其容易理解，在早期研究中經(jīng)常被提起。使用Pearson線性相關系數(shù)必須假設數(shù)據(jù)是成對地從正態(tài)分布中取得的，并且數(shù)據(jù)至少在邏輯范疇內(nèi)必須是等間距的數(shù)據(jù)。Mahout中，為皮爾森相關計算提供了一個擴展，通過增加一個枚舉類型（Weighting）的參數(shù)來使得重疊數(shù)也成為計算相似度的影響因子。
UncenteredCosineSimilarity: 余弦相似度

原理：多維空間兩點與所設定的點形成夾角的余弦值。

范圍：[-1,1]，值越大，說明夾角越大，兩點相距就越遠，相似度就越小。

說明：在數(shù)學表達中，如果對兩個項的屬性進行了數(shù)據(jù)中心化，計算出來的余弦相似度和皮爾森相似度是一樣的，在mahout中，實現(xiàn)了數(shù)據(jù)中心化的過程，所以皮爾森相似度值也是數(shù)據(jù)中心化后的余弦相似度。另外在新版本中，Mahout提供了UncenteredCosineSimilarity類作為計算非中心化數(shù)據(jù)的余弦相似度。
SpearmanCorrelationSimilarity: Spearman秩相關系數(shù)相似度
原理：Spearman秩相關系數(shù)通常被認為是排列后的變量之間的Pearson線性相關系數(shù)。

范圍：{-1.0,1.0}，當一致時為1.0，不一致時為-1.0。

說明：計算非常慢，有大量排序。針對推薦系統(tǒng)中的數(shù)據(jù)集來講，用Spearman秩相關系數(shù)作為相似度量是不合適的。
CityBlockSimilarity: 曼哈頓距離相似度
原理：曼哈頓距離的實現(xiàn)，同歐式距離相似，都是用于多維數(shù)據(jù)空間距離的測度

范圍：[0,1]，同歐式距離一致，值越小，說明距離值越大，相似度越大。

說明：比歐式距離計算量少，性能相對高。
LogLikelihoodSimilarity: 對數(shù)似然相似度
原理：重疊的個數(shù)，不重疊的個數(shù)，都沒有的個數(shù)

范圍：具體可去百度文庫中查找論文《Accurate Methods for the Statistics of Surprise and Coincidence》

說明：處理無打分的偏好數(shù)據(jù)，比Tanimoto系數(shù)的計算方法更為智能。
TanimotoCoefficientSimilarity: Tanimoto系數(shù)相似度

原理：又名廣義Jaccard系數(shù)，是對Jaccard系數(shù)的擴展，等式為

范圍：[0,1]，完全重疊時為1，無重疊項時為0，越接近1說明越相似。

說明：處理無打分的偏好數(shù)據(jù)。

相似度算法介紹，摘自：http://www.cnblogs.com/dlts26/archive/2012/06/20/2555772.html

5. 近鄰算法工具集

近鄰算法只對于UserCF適用，通過近鄰算法給相似的用戶進行排序，選出前N個最相似的，作為最終推薦的參考的用戶。

近鄰算法分為2種：

NearestNUserNeighborhood:指定N的個數(shù)，比如，選出前10最相似的用戶。
ThresholdUserNeighborhood:指定比例，比如，選擇前10%最相似的用戶。

6. 推薦算法工具集

推薦算法是以Recommender作為基礎的父類，關于推薦算法的詳細介紹，請參考文章：Mahout推薦算法API詳解

7. 創(chuàng)建自己的推薦引擎構造器

有了上面的知識，我就清楚地知道了Mahout推薦引擎的原理和使用，我們就可以寫一個自己的構造器，通過“策略模式”實現(xiàn)，算法的組合。

新建文件：org.conan.mymahout.recommendation.job.RecommendFactory.java

public final class RecommendFactory { ... }

1). 構造數(shù)據(jù)模型

public static DataModel buildDataModel(String file) throws TasteException, IOException {return new FileDataModel(new File(file));}public static DataModel buildDataModelNoPref(String file) throws TasteException, IOException {return new GenericBooleanPrefDataModel(GenericBooleanPrefDataModel.toDataMap(new FileDataModel(new File(file))));}public static DataModelBuilder buildDataModelNoPrefBuilder() {return new DataModelBuilder() {@Overridepublic DataModel buildDataModel(FastByIDMap trainingData) {return new GenericBooleanPrefDataModel(GenericBooleanPrefDataModel.toDataMap(trainingData));}};}

2). 構造相似度算法模型

public enum SIMILARITY {PEARSON, EUCLIDEAN, COSINE, TANIMOTO, LOGLIKELIHOOD, FARTHEST_NEIGHBOR_CLUSTER, NEAREST_NEIGHBOR_CLUSTER}public static UserSimilarity userSimilarity(SIMILARITY type, DataModel m) throws TasteException {switch (type) {case PEARSON:return new PearsonCorrelationSimilarity(m);case COSINE:return new UncenteredCosineSimilarity(m);case TANIMOTO:return new TanimotoCoefficientSimilarity(m);case LOGLIKELIHOOD:return new LogLikelihoodSimilarity(m);case EUCLIDEAN:default:return new EuclideanDistanceSimilarity(m);}}public static ItemSimilarity itemSimilarity(SIMILARITY type, DataModel m) throws TasteException {switch (type) {case LOGLIKELIHOOD:return new LogLikelihoodSimilarity(m);case TANIMOTO:default:return new TanimotoCoefficientSimilarity(m);}}public static ClusterSimilarity clusterSimilarity(SIMILARITY type, UserSimilarity us) throws TasteException {switch (type) {case NEAREST_NEIGHBOR_CLUSTER:return new NearestNeighborClusterSimilarity(us);case FARTHEST_NEIGHBOR_CLUSTER:default:return new FarthestNeighborClusterSimilarity(us);}}

3). 構造近鄰算法模型

public enum NEIGHBORHOOD {NEAREST, THRESHOLD}public static UserNeighborhood userNeighborhood(NEIGHBORHOOD type, UserSimilarity s, DataModel m, double num) throws TasteException {switch (type) {case NEAREST:return new NearestNUserNeighborhood((int) num, s, m);case THRESHOLD:default:return new ThresholdUserNeighborhood(num, s, m);}}

4). 構造推薦算法模型

public enum RECOMMENDER {USER, ITEM}public static RecommenderBuilder userRecommender(final UserSimilarity us, final UserNeighborhood un, boolean pref) throws TasteException {return pref ? new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {return new GenericUserBasedRecommender(model, un, us);}} : new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {return new GenericBooleanPrefUserBasedRecommender(model, un, us);}};}public static RecommenderBuilder itemRecommender(final ItemSimilarity is, boolean pref) throws TasteException {return pref ? new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {return new GenericItemBasedRecommender(model, is);}} : new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel model) throws TasteException {return new GenericBooleanPrefItemBasedRecommender(model, is);}};}public static RecommenderBuilder slopeOneRecommender() throws TasteException {return new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel dataModel) throws TasteException {return new SlopeOneRecommender(dataModel);}};}public static RecommenderBuilder itemKNNRecommender(final ItemSimilarity is, final Optimizer op, final int n) throws TasteException {return new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel dataModel) throws TasteException {return new KnnItemBasedRecommender(dataModel, is, op, n);}};}public static RecommenderBuilder svdRecommender(final Factorizer factorizer) throws TasteException {return new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel dataModel) throws TasteException {return new SVDRecommender(dataModel, factorizer);}};}public static RecommenderBuilder treeClusterRecommender(final ClusterSimilarity cs, final int n) throws TasteException {return new RecommenderBuilder() {@Overridepublic Recommender buildRecommender(DataModel dataModel) throws TasteException {return new TreeClusteringRecommender(dataModel, cs, n);}};}

5). 構造算法評估模型

public enum EVALUATOR {AVERAGE_ABSOLUTE_DIFFERENCE, RMS}public static RecommenderEvaluator buildEvaluator(EVALUATOR type) {switch (type) {case RMS:return new RMSRecommenderEvaluator();case AVERAGE_ABSOLUTE_DIFFERENCE:default:return new AverageAbsoluteDifferenceRecommenderEvaluator();}}public static void evaluate(EVALUATOR type, RecommenderBuilder rb, DataModelBuilder mb, DataModel dm, double trainPt) throws TasteException {System.out.printf("%s Evaluater Score:%s\n", type.toString(), buildEvaluator(type).evaluate(rb, mb, dm, trainPt, 1.0));}public static void evaluate(RecommenderEvaluator re, RecommenderBuilder rb, DataModelBuilder mb, DataModel dm, double trainPt) throws TasteException {System.out.printf("Evaluater Score:%s\n", re.evaluate(rb, mb, dm, trainPt, 1.0));}/*** statsEvaluator*/public static void statsEvaluator(RecommenderBuilder rb, DataModelBuilder mb, DataModel m, int topn) throws TasteException {RecommenderIRStatsEvaluator evaluator = new GenericRecommenderIRStatsEvaluator();IRStatistics stats = evaluator.evaluate(rb, mb, m, null, topn, GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD, 1.0);// System.out.printf("Recommender IR Evaluator: %s\n", stats);System.out.printf("Recommender IR Evaluator: [Precision:%s,Recall:%s]\n", stats.getPrecision(), stats.getRecall());}

6). 推薦結果輸出

public static void showItems(long uid, List recommendations, boolean skip) {if (!skip || recommendations.size() > 0) {System.out.printf("uid:%s,", uid);for (RecommendedItem recommendation : recommendations) {System.out.printf("(%s,%f)", recommendation.getItemID(), recommendation.getValue());}System.out.println();}}

7). 完整源代碼文件及使用樣例：
https://github.com/bsspirit/maven_mahout_template/tree/mahout-0.8/src/main/java/org/conan/mymahout/recommendation/job