Storm集群部署
1. Storm集群組件
Storm集群中包含兩類節點:主控節點(Master Node)和工作節點(Work Node)。其分別對應的角色如下:
·???????? 主控節點(Master Node)上運行一個被稱為Nimbus的后臺程序,它負責在Storm集群內分發代碼,分配任務給工作機器,并且負責監控集群運行狀態。Nimbus的作用類似于Hadoop中JobTracker的角色。
·???????? 每個工作節點(Work Node)上運行一個被稱為Supervisor的后臺程序。Supervisor負責監聽從Nimbus分配給它執行的任務,據此啟動或停止執行任務的工作進程。每一個工作進程執行一個Topology的子集;一個運行中的Topology由分布在不同工作節點上的多個工作進程組成。
Nimbus和Supervisor節點之間所有的協調工作是通過Zookeeper集群來實現的。此外,Nimbus和Supervisor進程都是快速失敗(fail-fast)和無狀態(stateless)的;Storm集群所有的狀態要么在Zookeeper集群中,要么存儲在本地磁盤上。這意味著你可以用kill -9來殺死Nimbus和Supervisor進程,它們在重啟后可以繼續工作。這個設計使得Storm集群擁有不可思議的穩定性。
2. 安裝Storm集群
這一章節將詳細描述如何搭建一個Storm集群。下面是接下來需要依次完成的安裝步驟:
·???????? 搭建Zookeeper集群;
·???????? 安裝Storm依賴庫;
·???????? 下載并解壓Storm發布版本;
·???????? 修改storm.yaml配置文件;
·???????? 啟動Storm各個后臺進程。
2.1 搭建Zookeeper集群 (略)
???????????? 見前面章節文章(zookeeper集群部署)
2.2 安裝Storm依賴庫
接下來,需要在Nimbus和Supervisor機器上安裝Storm的依賴庫,具體如下:
Java 6 Python 2.6.6
以上依賴庫的版本是經過Storm測試的,Storm并不能保證在其他版本的Java或Python庫下可運行。
2.2.3?? 安裝Java 6 (目前我安裝的是jdk1.7)
?配置JAVA_HOME環境變量;
2.2.4?? 安裝Python2.6.6
注:默認centos6.4中已經存在python2.6.6,可以使用python –v查看,我的機器默認已存在所以在此我就不安裝了;
1. 下載Python2.6.6:
wget http://www.python.org/ftp/python/2.6.6/Python-2.6.6.tar.bz2
2. 編譯安裝Python2.6.6:
tar –jxvf Python-2.6.6.tar.bz2cd Python-2.6.6./configuremakemakeinstall
3. 測試Python2.6.6:
$ python -VPython 2.6.6
2.3 下載并解壓Storm發布版本(我使用的是apache-storm-0.9.3)
下一步,需要在Nimbus和Supervisor機器上安裝Storm發行版本。
1. 下載Storm發行版本
2. 解壓到安裝目錄下:
tar –zvxf apache-storm-0.9.3.tar.gz –C /usr/local/program/storm
3.配置環境變量
vi /etc/profile export STORM_HOME=/usr/local/program/storm/ apache-storm-0.9.3export PATH=$STORM_HOME/bin:$PATH
2.4 修改storm.yaml配置文件
Storm發行版本解壓目錄下有一個conf/storm.yaml文件,用于配置Storm。默認配置在這里可以查看。conf/storm.yaml中的配置選項將覆蓋defaults.yaml中的默認配置。以下配置選項是必須在conf/storm.yaml中進行配置的:
1)?storm.zookeeper.servers: Storm集群使用的Zookeeper集群地址,其格式如下:
storm.zookeeper.servers:- "111.222.333.444"- "555.666.777.888"我的配置為:storm.zookeeper.servers:- "m1"- "s1"- "s2"
如果Zookeeper集群使用的不是默認端口,那么還需要storm.zookeeper.port選項。
2)?storm.local.dir: Nimbus和Supervisor進程用于存儲少量狀態,如jars、confs等的本地磁盤目錄,需要提前創建該目錄并給以足夠的訪問權限。然后在storm.yaml中配置該目錄,如:
storm.local.dir: "/usr/local/program/storm/data"注:需要首先創建data目錄
3)?nimbus.host: Storm集群Nimbus機器地址,各個Supervisor工作節點需要知道哪個機器是Nimbus,以便下載Topologies的jars、confs等文件,如:
?
4)?supervisor.slots.ports: 對于每個Supervisor工作節點,需要配置該工作節點可以運行的worker數量。每個worker占用一個單獨的端口用于接收消息,該配置選項即用于定義哪些端口是可被worker使用的。默認情況下,每個節點上可運行4個workers,分別在6700、6701、6702和6703端口,如:
supervisor.slots.ports:- 6700- 6701- 6702- 6703
2.5 啟動Storm各個后臺進程
最后一步,啟動Storm的所有后臺進程。和Zookeeper一樣,Storm也是快速失敗(fail-fast)的系統,這樣Storm才能在任意時刻被停止,并且當進程重啟后被正確地恢復執行。這也是為什么Storm不在進程內保存狀態的原因,即使Nimbus或Supervisors被重啟,運行中的Topologies不會受到影響。
以下是啟動Storm各個后臺進程的方式:
注意事項:
至此,Storm集群已經部署、配置完畢,可以向集群提交拓撲運行了。
這時再打開瀏覽器http://m1:8081/index.html,可以看到我們剛才提產的代碼已經在集群中顯示了。
?
2.6 FAQ
1)過程中發現storm ui顯示supervisor個數與實際不符的解決
解決方法:在刪除了local dir,重啟后恢復了。
參考:
1.?https://github.com/nathanmarz/storm/wiki/Tutorial
2.?https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster
3.http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html
?
?
總結
- 上一篇: 父亲借女儿3万压岁钱不还被起诉 法院:应
- 下一篇: 1万元!佳能入门级全画幅相机EOS R8