Apache Hadoop 2.4.1 单节点安装
2019獨角獸企業重金招聘Python工程師標準>>>
一、目的
這篇文檔描述了怎樣去安裝和配置一個單節點的Hadoop,因此您可以使用Hadoop MapReduce?和 Hadoop Distributed File System (HDFS) 快速展現一個簡單的運算。
二、安裝的先決條件
支持的平臺
Hadoop支持GNU/Linux系統,并被作為開發和產品平臺。經證實,在GNU/Linux平臺上Hadoop可以支持2000個節點的集群。
Windows系統也是被支持的,但是下面的文檔僅描述Hadoop在Linux上的安裝,Hadoop在Windws系統的安裝請參考?wiki page。
所需軟件
Linux需求的軟件包含:
Java? 必須被安裝,推薦的Java版本請參考?HadoopJavaVersions. ssh 必須被安裝并且sshd是運行狀態, 因為需要用Hadoop腳本去管理遠程守護進程。?
安裝軟件
如果你的集群中沒有上述軟件,請安裝它。
例如在Ubuntu下:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
三、下載所需軟件
獲取Hadoop 分布式集群軟件,從?Apache Download Mirrors上下載一個最近的穩定版本(當期穩定版本是2.4.1)。
四、準備開始Hadoop集群
解壓下載好的Hadoop軟件。 在安裝目錄里,編輯文件etc/hadoop/hadoop-env.sh,并定義下面一些參數:?
# 設置JAVA的安裝目錄export JAVA_HOME=/usr/java/latest # 設置hadoop的安裝目錄,假如您的安裝目錄是 /usr/local/hadoopexport HADOOP_PREFIX=/usr/local/hadoop在Termimal中嘗試輸入以下命令: $ bin/hadoop
輸入上述命令后,Terminal中將會顯示hadoop scripts的使用幫助文檔。
接下來,你可以在下面三種模式中開始您的Hadoop集群
- 本地模式(單機模式)
- 為分布式模式
- 完全分布式模式
?
五、單機安裝(運行一個例子)
默認情況下,Hadoop作為一個簡單的Java程序,被運行在一個沒有分布式的模式。更多的是被用來調式程序。
在下面的例子中,復制Hadoop安裝文件中的conf目錄,使用它作為輸入。然后再conf文件中找出與給定正則表達式匹配的文件。輸出被寫到給定的output目錄。
$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'$ cat output/*六、偽分布式安裝
?Hadoop也可以在一個單節點中運行偽分布式模式,Hadoop守護進程運行在一個分割的Java程序中。
?配置
?配置的文件和屬性如下:
?etc/hadoop/core-site.xml:
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> </configuration>etc/hadoop/hdfs-site.xml:
<configuration><property><name>dfs.replication</name><value>1</value></property> </configuration>?
配置ssh無秘鑰登錄
使用如下命令檢查您的ssh是否可以無秘鑰登錄
$ ssh localhost如果不能使用無秘鑰登錄到localhost,請執行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys?執行
?下面這些命令運行一個MapReduce作業,如果您想執行一個YARN作業,請參考下一節的內容:?在單節點上運行YARN。
$ bin/hdfs namenode -format
$ sbin/start-dfs.sh
Hadoop守護進程日志輸出在$HADOOP_LOG-DIRdiewctory目錄(默認在 $HADOOP_HOME/logs 目錄中)。
- NameNode -http://localhost:50070/
上傳輸入文件(etc/hadoop)到HDFS,并重新命名為input:
$ bin/hdfs dfs -put etc/hadoop input
運行Hadoop提供的例子:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
檢查輸出文件:
從HDFS中復制出輸出文件到本地文件系統并檢查他們:
$ bin/hdfs dfs -get output output$ cat output/*或者
直接在HDFS中查看輸出文件:
$ bin/hdfs dfs -cat output/*當你完成后,可以使用下面命令停止守護進程 :
$ sbin/stop-dfs.sh
?在單節點上運行YARN
?你可以在偽分布式模式下通過設置一些參數,并運行ResourceManager和NodeMangaer守護進程的條件下,來運行一個在YARN上的MapReduce作業。
??? 執行下面的命令,要確保以上的1~4個步驟已經被執行。
etc/hadoop/mapred-site.xml:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property> </configuration>etc/hadoop/yarn-site.xml:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property> </configuration>$ sbin/start-yarn.sh
- ResourceManager -http://localhost:8088/
$ sbin/stop-yarn.sh
七、完全分布式安裝
?完全分布式更詳細的安裝文檔請參考 Cluster Setup? 。
?
轉載于:https://my.oschina.net/997155658/blog/313420
總結
以上是生活随笔為你收集整理的Apache Hadoop 2.4.1 单节点安装的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Excel 2010单元格中设置表头
- 下一篇: WPF/Silverlight Layo