关于 mahout factorize-movielens-1M.sh 执行
mahout 0.9? hadoop 1.2.1 新手上路 請多指教;
?需要運行 /examples/bin/factorize-movielens-1M.sh 即 ALS 推薦算法,數據集從movielens官網上下載?根據腳本文件,首先需要 將ratings.csv文件 放置在hdfs 文件系統中(/tmp/mahout-work-{$USER}),不然mahout 會找不到輸入路徑,這點在腳本文件里看不到,如果放在本地文件系統中,該腳本始終運行不成功;
接下來 按照腳本文件 順序執行, 但是 速度之慢 令人發指(由于之前在 spark scala執行過 同樣的算法);
第1步是 分割數據集為 訓練集和測試集 ,比較快;
第2步是 運行 分布式的ALS算法,根據腳本文件總共iteration 10 次,總共耗時28分鐘(19:00 ~19:28),輸出結果在指定的hdfs? 路徑中
第3步是 根據 測試集 計算 RMSE值,本次實驗值為1.9233056087885207
第4步是 計算推薦結果 ,總耗時 (Minutes: 33.89475)? 結果分別存儲在 /tmp/mahout-work-crystal/recommendations/part-m-00000? part-m-00001? part-m-00002 文件中。部分推薦結果展示如下。1?? ?[21594:5.0,176346:5.0,27082:5.0,76134:5.0,21262:5.0,126310:5.0]
2?? ?[11111:5.0,151858:5.0,187261:5.0,154758:5.0,132710:5.0,193670:5.0]
3?? ?[150162:5.0,125323:5.0,78600:5.0,189325:5.0,138854:5.0,106806:5.0]
4?? ?[214252:5.0,182906:5.0,134862:5.0,57552:5.0,57610:5.0,17673:5.0]
5?? ?[69574:5.0,22014:5.0,22302:5.0,115892:5.0,117109:5.0,201437:5.0]
6?? ?[216281:5.0,18095:5.0,99810:5.0,201194:5.0,118216:5.0,202405:5.0]
7?? ?[82039:5.0,69574:5.0,77150:5.0,216493:5.0,85303:5.0,26756:5.0]
8?? ?[9091:5.0,63326:5.0,49299:5.0,97888:5.0,81740:5.0,214349:5.0]
9?? ?[14640:5.0,33901:5.0,118654:5.0,80297:5.0,16061:5.0,113005:5.0]
10?? ?[36730:5.0,167973:5.0,17908:5.0,163526:5.0,192192:5.0,25297:5.0]
11?? ?[111334:5.0,120355:5.0,48520:5.0,80740:5.0,191782:5.0,182794:5.0]
12?? ?[41426:5.0,103975:5.0,146438:5.0,78255:5.0,4508:5.0,134427:5.0]
14?? ?[163822:5.0,79466:5.0,17673:5.0,56068:5.0,90542:5.0,4094:5.0]
13?? ?[13334:5.0,49540:5.0,128646:5.0,207650:5.0,10598:5.0,108255:5.0]
15?? ?[167273:5.0,85015:5.0,192817:5.0,9597:5.0,103171:5.0,2415:5.0]
16?? ?[35302:5.0,112253:5.0,9091:5.0,76807:5.0,14310:5.0,49299:5.0]
17?? ?[134862:5.0,63532:5.0,176943:5.0,163526:5.0,135958:5.0,216717:5.0]
18?? ?[144686:5.0,18330:5.0,33758:5.0,70359:5.0,60828:5.0,64721:5.0]
20?? ?[191265:5.0,80756:5.0,149302:5.0,169835:5.0,48754:5.0,76186:5.0]
19?? ?[103522:5.0,173735:5.0,63396:5.0,20917:5.0,70894:5.0,179231:5.0]
輸出 結果 路徑 展示:
轉載于:https://www.cnblogs.com/superzhu/p/hadoop_mahout.html
總結
以上是生活随笔為你收集整理的关于 mahout factorize-movielens-1M.sh 执行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: url编码问题小计
- 下一篇: Python学习系列:PyCharm C