MLlib 编程指导-spark-1.2.0
本文來自?http://spark.apache.org/docs/latest/mllib-guide.html?官方文檔翻譯 個人翻譯
?
MLlib包括的算法和工具主要有:分類,回歸,聚類,協同過濾,降維,和底層優化原語:
- 數據類型
- 基本統計
- 總和統計
- 相關性
- 分層抽樣
- 假設檢驗
- 隨機數生成
- 分類和回歸
- 線性模型(SVM,邏輯回歸,線性回歸)
- 樸素貝葉斯
- 決策樹
- ensembles of trees (隨機森林和Gradient-Boosted樹)
- 協同過濾
- 最小二乘法(ALS)
- 聚類
- k-means
- 降維
- singular value decomposition (SVD)
- principal component analysis (PCA)
- 特征提取和轉換
- 優化(開發者)
- 隨機梯度下降
- 限制內存的BFGS(L-BFGS)
依賴
MLlib使用線性代數包Breeze,他依賴netlib-java和jblas。netlib-java和jblas依賴原生的Fortran程序。如果你的節點中沒有這些庫,你也許會需要安裝 gfortran runtime library。如果程序沒有辦法自動檢測到這些庫,MLlib 將會拋出鏈接錯誤的異常。由于許可原因,MLlib的默認依賴結合不包含netlib-java的原始庫,運行時會出現一些警告信息。為了使用netlib-java的原始庫,請在構建spark時使用-Pnetlib-lgpl或者包含com.github.fommil.netlib:all:1.1.2依賴。如果想使用想OpenBLAS這種BLAS/LAPACK優化庫,需要連接/usr/lib/libblas.so.3 and /usr/lib/liblapack.so.3。worker節點上的BLAS/LAPACK libraries在build是不是用多線程。
如果想用 Python 調用 MLlib,你需要安裝 NumPy 1.4 或者更新的版本。
轉載于:https://www.cnblogs.com/lemonqin/p/4174104.html
總結
以上是生活随笔為你收集整理的MLlib 编程指导-spark-1.2.0的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ios推送服务,php服务端
- 下一篇: “榕树下·那年”移动app ( hybr