基于Hadoop的Spark超快安装
生活随笔
收集整理的這篇文章主要介紹了
基于Hadoop的Spark超快安装
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 前言
- 一、Spark的安裝
- 總結
前言
基于Hadoop的Spark超快安裝
?
一、Spark的安裝
待Hadoop安裝好之后,我們再開始安裝Spark。
我選擇的是Spark 2.4.8 版本,選擇package type為"Pre-built with user-provided Apache Hadoop",這個包類型,簡單配置后可以應用到任意Hadoop版本。
復制鏈接到迅雷下載。
官網下載鏈接:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/spark-2.4.8-bin-without-hadoop.tgz
把下載好的Spark拖進虛擬機。(安裝了Vmware Tools可以直接從主機拖進虛擬機,上一篇博客有說明)
解壓安裝包至路徑 /usr/local,執行如下命令:
sudo tar -zxf ~/Desktop/spark-2.4.8-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.4.8-bin-without-hadoop/ ./spark #更改文件夾名 sudo chown -R hadoop ./spark #此處的hadoop為系統用戶名注意:此處-R后面是自己的系統用戶名,我的用戶名是smallsa。
配置Spark的classpath。
cd /usr/local/spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh #拷貝配置文件編輯該配置文件,在文件最后面加上如下一行內容:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)保存配置文件后,就可以啟動、運行Spark了。
若需要使用HDFS中的文件,則在使用Spark前需要啟動Hadoop。
執行如下命令配置路徑:
sudo vi ~/.bashrc在文件最上面加上下面的內容:
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip: $PYTHONPATH export PYSPARK_PYTHON=python3
執行如下命令更新以下:
source ~/.bashrc因為是基于Hadoop,所以我們先啟動Hadoop,再啟動Spark。可以看到Hadoop和Spark都啟動成功了。
運行pyspark
?
?
總結
?
總結
以上是生活随笔為你收集整理的基于Hadoop的Spark超快安装的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop的搭建,VmwareWork
- 下一篇: 使用pip install出现超时警告的