Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境
?
一,安裝jdk1.8.0.144
下載地址:www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html
Ubuntu配置jdk運(yùn)行環(huán)境
export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin $ mkdir /usr/lib/jvm #創(chuàng)建jvm文件夾 $ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解壓到/usr/lib/jvm目錄下 $ cd /usr/lib/jvm #進(jìn)入該目錄 $ mv jdk1.7.0_80 java #重命名為java $ sudo apt-get install vim $ vim ~/.bashrc #給JDK配置環(huán)境變量~/.bashrc文件末尾添加以下內(nèi)容
export JAVA_HOME=/usr/lib/jvm/java export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH $ source ~/.bashrc #使新配置的環(huán)境變量生效 $ java -version #檢測(cè)是否安裝成功,查看java版本二,配置ssh免密登錄
$ sudo apt-get install openssh-server #安裝SSH server $ ssh localhost #登陸SSH,第一次登陸輸入yes $ exit #退出登錄的ssh localhost $ sudo su $ cd ~/.ssh/ #如果沒(méi)法進(jìn)入該目錄,執(zhí)行一次ssh localhost $ ssh-keygen -t rsa輸入完 ?$ ssh-keygen -t rsa 語(yǔ)句以后,需要連續(xù)敲擊三次回車
$ cat ./id_rsa.pub >> ./authorized_keys #加入授權(quán) $ ssh localhost #此時(shí)已不需密碼即可登錄localhost,并可見(jiàn)下圖。如果失敗則可以搜索SSH免密碼登錄來(lái)尋求答案三,安裝hadoop-2.6.5
下載地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local #解壓到/usr/local目錄下 $ cd /usr/local $ sudo mv hadoop-2.6.5 hadoop #重命名為hadoop $ sudo chown -R hadoop ./hadoop #修改文件權(quán)限~/.bashrc文件末尾添加以下內(nèi)容
export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin同樣,執(zhí)行source ~./bashrc使設(shè)置生效,并輸入“hadoop version”查看hadoop是否安裝成功
往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入
export JAVA_HOME=/usr/lib/jvm/java往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入
<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> </configuration>往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property> </configuration>在Hadoop的目錄下執(zhí)行
$ ./bin/hdfs namenode -format $ ./sbin/start-dfs.sh $ jps此時(shí)也有可能出現(xiàn)要求輸入localhost密碼的情況 ,如果此時(shí)明明輸入的是正確的密碼卻仍無(wú)法登入,其原因是由于如果不輸入用戶名的時(shí)候默認(rèn)的是root用戶,但是安全期間ssh服務(wù)默認(rèn)沒(méi)有開(kāi)root用戶的ssh權(quán)限
輸入代碼:
$vim /etc/ssh/sshd_config檢查PermitRootLogin 后面是否為yes,如果不是,則將該行代碼 中PermitRootLogin 后面的內(nèi)容刪除,改為yes,保存。之后輸入下列代碼重啟SSH服務(wù):
$ /etc/init.d/sshd restart成功啟動(dòng)后,可以訪問(wèn) Web 界面?http://localhost:50070?查看 NameNode 和 Datanode 信息,還可以在線查看 HDFS 中的文件
后續(xù)每次重新啟動(dòng)Hadoop只需以下命令即可
sudo su ssh localhost #連接免密的root cd /usr/local/hadoop #打開(kāi)Hadoop目錄 ./sbin/start-dfs.sh #啟動(dòng)namenode和datanode進(jìn)程四,安裝Scala
sudo apt-get install scala~/.bashrc文件末尾添加以下內(nèi)容,執(zhí)行source ~./bashrc使設(shè)置生效
export SCALA_HOME=/usr/share/scala-2.11五,安裝Spark
下載地址:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz
tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark在>>>后輸入
lines = sc.textFile("/usr/local/spark/README.md")lines.count() #字?jǐn)?shù)統(tǒng)計(jì)lines.first()如出現(xiàn)輸出則說(shuō)明Spark+Python+Hadoop大數(shù)據(jù)開(kāi)發(fā)環(huán)境已經(jīng)安裝成功
?
總結(jié)
以上是生活随笔為你收集整理的Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: texture 纹理(贴图)
- 下一篇: ajax入门篇