基于Spark的机器学习实践 (三) - 实战环境搭建
0 相關源碼
1 Spark環境安裝
◆ Spark 由scala語言編寫,提供多種語言接口,需要JVM
◆ 官方為我們提供了Spark 編譯好的版本,可以不必進行手動編譯
◆ Spark安裝不難,配置需要注意,并且不一定需要Hadoop環境
-  
下載
 -  
解壓
 
2 Spark配置
◆ 在配置前盡量先閱讀官方文檔,避免直接從網上找配置教程
◆ 要為節點設 置好使用的內存,否則可能導致節點利用率低;
◆ 注意spark中IP與端口號的配置,以免UnknownHostException
官網配置
-  
應用默認配置
 -  
配置文件
 -  
復制兩份模板,開啟自行配置
 
單機環境配置
- 本地IP
 
shell進行驗證
bin/spark-shell 復制代碼3 Spark shell
◆ Spark shell是一個bash腳本,在./bin目錄下
◆ Spark shell 為我們事先配置好了上下文(context) 和會話(session)
-  
context實例
 -  
session實例
 -  
UI
 
4 實戰Wordcount
4.1 Wordcount簡介
◆ Wordcount 詞頻統計,是大數據分析中最為基礎的一種任務 英文分詞較容易,直接分割空格即可。
◆ 實現思路 首先將文件中所有的單詞提取出來,然后合并相同單詞
- 實現示意圖
 
項目搭建
-  
添加spark jar包
 -  
全選jar包,先左鍵選中第一個,再拉到最后shift,再左鍵最后一個實現全選.
 -  
新建類
 -  
測試文件
 
-  
編寫函數
 -  
運行成功
 -  
打包
 -  
移除這些多余的jar包
 -  
構建
 -  
將jar包放到spark/bin目錄下 使用 Spark-submit 運行
 
Spark機器學習實踐系列
- 基于Spark的機器學習實踐 (一) - 初識機器學習
 - 基于Spark的機器學習實踐 (二) - 初識MLlib
 - 基于Spark的機器學習實踐 (三) - 實戰環境搭建
 
轉載于:https://juejin.im/post/5cac4cb15188251b2f3a41af
總結
以上是生活随笔為你收集整理的基于Spark的机器学习实践 (三) - 实战环境搭建的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: OSI七层网络模型浅析
 - 下一篇: MBR分区表无法安装系统怎么办 MBR分