Centos下机器学习算法Mahout库的安装和示例
生活随笔
收集整理的這篇文章主要介紹了
Centos下机器学习算法Mahout库的安装和示例
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1、Mahout簡介
Apache Mahout是Apache Software Foundation(ASF)旗下的一個開源項目,提供了一些經典的機器學習算法,旨在幫助開發人員更加方便快捷地創建智能應用程序。
Mahout的主要目標是建立針對大規模數據集可伸縮的機器學習算法,主要包括以下五個部分:
1)頻繁模式挖掘:挖掘數據中頻繁出現的項集;
2)聚類:將諸如文本、文檔之類的數據分成局部相關的組;
3)分類:利用已經存在的分類文檔訓練分類器,對未分類的文檔進行分類;
4)推薦引擎(協同過濾):獲取用戶的行為并從中發現用戶可能喜歡的事務;
5)頻繁子項挖掘:利用一個項集(查詢記錄或購物記錄)去識別經常一起出現的項目。
1、安裝
Mahout可下載源碼進行編譯安裝,這里直接下載已編譯好的二進制文件安裝。
Mahout可在本地模式下運行,也可利用hadoop的MapReduce作業運行。
1)下載:http://mirror.bjtu.edu.cn/apache/mahout
? ? 最新版本:apache-mahout-distribution-0.12.2.tar.gz
2)解壓文件到指定目錄:
? ?tar -zxvf apache-mahout-distribution-0.12.2.tar.gz -C /home/mahout
? ?參數-C指定解壓的文件夾,可指定到$HADOOP_HOME/下。
? ?這里采用本地模式運行,不配置Mahout所需的Hadoop環境變量,當前JDK是要提前安裝好。
? ?實際應用中,整合在Hadoop上應用最佳。
3)驗證,進入/home/mahout/目錄下執行:
? ?bin/mahout -help 可以列出Mahout的所有命令。
3、示例
示例使用Mahout中的FPGrowth算法實現頻繁模式挖掘。
1)數據獲取:http://fimi.ua.ac.be/data/retail.dat
? ?一組零售銷售記錄數據,用個空格劃分。
2)執行算法:sequential模式執行,如果是hadoop則是mapreduce
? ?bin/mahout fpg -i /tmp/retail.dat -o /tmp/ -k 50 -method sequential -regex '[\ ]' -s 2
這里只是簡單引入Mahout及本地模式命令運行相關算法,有興趣的可以深入掌握這個機器學習庫,只要提供數據即可。
Apache Mahout還提供了一個協同過濾算法的實現庫Taste,用Java實現,方便用戶定義和實現自己的推薦算法,有興趣也可以部署來用用。
個人覺得機器學習算法還是要自己一步步實現比較有感覺,而且可以交匯驗證優化,Spark平臺的MLIB庫還是比較喜歡。
??
? ?
Apache Mahout是Apache Software Foundation(ASF)旗下的一個開源項目,提供了一些經典的機器學習算法,旨在幫助開發人員更加方便快捷地創建智能應用程序。
Mahout的主要目標是建立針對大規模數據集可伸縮的機器學習算法,主要包括以下五個部分:
1)頻繁模式挖掘:挖掘數據中頻繁出現的項集;
2)聚類:將諸如文本、文檔之類的數據分成局部相關的組;
3)分類:利用已經存在的分類文檔訓練分類器,對未分類的文檔進行分類;
4)推薦引擎(協同過濾):獲取用戶的行為并從中發現用戶可能喜歡的事務;
5)頻繁子項挖掘:利用一個項集(查詢記錄或購物記錄)去識別經常一起出現的項目。
1、安裝
Mahout可下載源碼進行編譯安裝,這里直接下載已編譯好的二進制文件安裝。
Mahout可在本地模式下運行,也可利用hadoop的MapReduce作業運行。
1)下載:http://mirror.bjtu.edu.cn/apache/mahout
? ? 最新版本:apache-mahout-distribution-0.12.2.tar.gz
2)解壓文件到指定目錄:
? ?tar -zxvf apache-mahout-distribution-0.12.2.tar.gz -C /home/mahout
? ?參數-C指定解壓的文件夾,可指定到$HADOOP_HOME/下。
? ?這里采用本地模式運行,不配置Mahout所需的Hadoop環境變量,當前JDK是要提前安裝好。
? ?實際應用中,整合在Hadoop上應用最佳。
3)驗證,進入/home/mahout/目錄下執行:
? ?bin/mahout -help 可以列出Mahout的所有命令。
3、示例
示例使用Mahout中的FPGrowth算法實現頻繁模式挖掘。
1)數據獲取:http://fimi.ua.ac.be/data/retail.dat
? ?一組零售銷售記錄數據,用個空格劃分。
2)執行算法:sequential模式執行,如果是hadoop則是mapreduce
? ?bin/mahout fpg -i /tmp/retail.dat -o /tmp/ -k 50 -method sequential -regex '[\ ]' -s 2
這里只是簡單引入Mahout及本地模式命令運行相關算法,有興趣的可以深入掌握這個機器學習庫,只要提供數據即可。
Apache Mahout還提供了一個協同過濾算法的實現庫Taste,用Java實現,方便用戶定義和實現自己的推薦算法,有興趣也可以部署來用用。
個人覺得機器學習算法還是要自己一步步實現比較有感覺,而且可以交匯驗證優化,Spark平臺的MLIB庫還是比較喜歡。
??
? ?
總結
以上是生活随笔為你收集整理的Centos下机器学习算法Mahout库的安装和示例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java生成CRC16数据校验码
- 下一篇: Java实现数据序列化工具Avro的例子