Hadoop高速入门
Hadoop高速入門
先決條件
支持平臺
- GNU/Linux是產品開發和執行的平臺。
Hadoop已在有2000個節點的GNU/Linux主機組成的集群系統上得到驗證。
- Win32平臺是作為開發平臺支持的。因為分布式操作尚未在Win32平臺上充分測試,所以還不作為一個生產平臺被支持。
所需軟件
Linux和Windows所需軟件包含:
Windows下的附加軟件需求
安裝軟件
假設你的集群尚未安裝所需軟件,你得首先安裝它們。
以Ubuntu Linux為例:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
在Windows平臺上,假設安裝cygwin時未安裝所有所需軟件,則需啟動cyqwin安裝管理器安裝例如以下軟件包:
- openssh - Net 類
下載
為了獲取Hadoop的發行版。從Apache的某個鏡像server上下載近期的 穩定發行版。
執行Hadoop集群的準備工作
解壓所下載的Hadoop發行版。編輯 conf/hadoop-env.sh文件。至少須要將JAVA_HOME設置為Java安裝根路徑。
嘗試例如以下命令:
$ bin/hadoop
將會顯示hadoop 腳本的使用文檔。
如今你能夠用下面三種支持的模式中的一種啟動Hadoop集群:
- 單機模式
- 偽分布式模式
- 全然分布式模式
單機模式的操作方法
默認情況下,Hadoop被配置成以非分布式模式執行的一個獨立Java進程。這對調試很有幫助。
以下的實例將已解壓的 conf 文件夾拷貝作為輸入,查找并顯示匹配給定正則表達式的條目。
輸出寫入到指定的output文件夾。
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*
偽分布式模式的操作方法
Hadoop能夠在單節點上以所謂的偽分布式模式執行,此時每個Hadoop守護進程都作為一個獨立的Java進程執行。
配置
使用例如以下的 conf/hadoop-site.xml:
| <configuration> |
| ??<property> |
| ????<name>fs.default.name</name> |
| ????<value>localhost:9000</value> |
| ??</property> |
| ??<property> |
| ????<name>mapred.job.tracker</name> |
| ????<value>localhost:9001</value> |
| ??</property> |
| ??<property> |
| ????<name>dfs.replication</name> |
| ????<value>1</value> |
| ??</property> |
| </configuration> |
免passwordssh設置
如今確認是否能不輸入口令就用ssh登錄localhost:
$ ssh localhost
假設不輸入口令就無法用ssh登陸localhost。運行以下的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
運行
格式化一個新的分布式文件系統:
$ bin/hadoop namenode -format
啟動Hadoop守護進程:
$ bin/start-all.sh
Hadoop守護進程的日志寫入到 ${HADOOP_LOG_DIR} 文件夾 (默認是 ${HADOOP_HOME}/logs).
瀏覽NameNode和JobTracker的網絡接口,它們的地址默覺得:
- NameNode - http://localhost:50070/
- JobTracker - http://localhost:50030/
將輸入文件復制到分布式文件系統:
$ bin/hadoop fs -put conf input
執行發行版提供的演示樣例程序:
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
查看輸出文件:
將輸出文件從分布式文件系統復制到本地文件系統查看:
$ bin/hadoop fs -get output output
$ cat output/*
或者
在分布式文件系統上查看輸出文件:
$ bin/hadoop fs -cat output/*
完畢所有操作后,停止守護進程:
$ bin/stop-all.sh
全然分布式模式的操作方法
關于搭建全然分布式模式的。有實際意義的集群的資料能夠在這里找到。
參考資料:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html
總結
以上是生活随笔為你收集整理的Hadoop高速入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《JAVA与模式》之单例模式
- 下一篇: IBATIS + ORACLE(二)