Hadoop集群部署模型纵览1
vSphere Big Data Extensions(簡稱BDE)支持多種部署方式來構(gòu)建Hadoop集群。按:
存儲/計算綁定模型:將存儲節(jié)點(Data Node)和計算節(jié)點(Task Tracker)部署在相同的虛擬機中。這是最直接簡單的部署模型,可以用于概念驗證和承載小規(guī)模集群的數(shù)據(jù)處理任務(wù)。
單一計算模型:只部署計算節(jié)點(Job Tracker和Task Tracker)的集群類型。
存儲/計算分離模型:將存儲節(jié)點(Data Node)和計算節(jié)點(Task Tracker)部署在不同的虛擬機中,并且根據(jù)特定的業(yè)務(wù)需求,通過相應(yīng)的分布算法決定集群在vSphereESX物理主機上的拓?fù)浣Y(jié)構(gòu)。
自定制集群:用戶可以根據(jù)具體的業(yè)務(wù)需求,自定制集群的部署結(jié)構(gòu)、資源模型和配置參數(shù)。
本文我們將著重介紹前2個部署模型,即存儲/計算綁定模型和單一計算模型。
存儲和計算節(jié)點綁定模型(Data-Compute Combined Deployment)
通常情況下,我們?yōu)榱吮WCHadoop集群數(shù)據(jù)本地化(Data Locality)的需要,會將存儲(DataNode)和計算(TaskTracker)服務(wù)部署在相同節(jié)點上。Big Data Extensions也提供這樣的部署模式。
你可以使用BDE的命令行工具,通過運行cluster create --name cluster_name命令創(chuàng)建一個基本的默認(rèn)Hadoop集群。
這類集群將包含一個主節(jié)點(master),運行Apache Hadoop 1.2.1(BDE 1.0內(nèi)置的默認(rèn)Hadoop發(fā)行版)的NameNode和JobTracker;三個工作節(jié)點(worker),運行DataNode和TaskTracker;一個客戶端節(jié)點(Clientnode),運行Hadoop客戶端,Pig和Hive等。
這里將DataNode和TaskTracker搭建在同一個虛擬機節(jié)點內(nèi)部,這就是存儲和計算節(jié)點綁定模型。
單一計算節(jié)點模型(Compute-OnlyDeployment)
如果你的生產(chǎn)或開發(fā)環(huán)境里已經(jīng)有了HDFS,并且有數(shù)以TB的分析型數(shù)據(jù)存在于其中,商業(yè)分析團隊根據(jù)新的業(yè)務(wù)需求,開發(fā)新功能去挖掘新的模式,這時您可以搭建一個單一計算節(jié)點集群(Compute-OnlyCluster)。
單一計算節(jié)點集群指的是只部署MapReduce服務(wù),包括Jobtracker和Tasktracker,并且鏈接到某個已經(jīng)存在的HDFS上。這樣做的好處有很多,首先可以避免搭建完整集群后的大規(guī)模數(shù)據(jù)拷貝或遷移,減少開發(fā)環(huán)境的等待時間,可以立即部署立即使用,非常適合臨時性的開發(fā)測試環(huán)境;其次,也可以在不同的計算集群之間做到性能隔離,安全性隔離和故障隔離;另外,在兼容性滿足的情況下,您也可以使用第三方的商業(yè)版HDFS如Isilon等等。
對于單一計算節(jié)點集群,您也可以使用動態(tài)伸縮功能(Auto-Elasiticity)來動態(tài)地調(diào)配您的資源。
下面列舉了這種集群部署的實例定義文件,您可以使用它創(chuàng)建Compute-OnlyCluster。externalHDFS字段定義了要使用的已存在的HDFS服務(wù)。請將hadoop_jobtracker角色賦給master節(jié)點組,將hadoop_tasktracker角色賦給worker節(jié)點組。對于externalHDFS所指定的HDFS集群,默認(rèn)情況下請設(shè)置port_num為8020。對于Hadoop2.0集群,例如CDH4或是PivotalHD等,默認(rèn)情況下請設(shè)置port_num為9000。在集群定義文件中,ExternalHDFS字段和hadoop_namenode,hadoop_datanode角色不能同時存在,否則可能會導(dǎo)致集群創(chuàng)建失敗或創(chuàng)建的集群無法正常運行。
{ "externalHDFS": "hdfs://<hostname-of-namenode>:<port_num>", "nodeGroups": [ { "name": "master", "roles": [ "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "worker", "roles": [ "hadoop_tasktracker", ], "instanceNum": 4, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 }, } ] } |
如有任何問題,您可以發(fā)郵件至bigdata_apac@vmware.com。
關(guān)于vSphere Big Data Extensions:
VMware vSphere Big Data Extensions(簡稱BDE)基于vSphere平臺支持大數(shù)據(jù)和Apache Hadoop作業(yè)。BDE以開源Serengeti項目為基礎(chǔ),為企業(yè)級用戶提供一系列整合的管理工具,通過在vSphere上虛擬化Apache Hadoop,幫助用戶在基礎(chǔ)設(shè)施上實現(xiàn)靈活、彈性、安全和快捷的大數(shù)據(jù)部署、運行和管理工作。了解更多關(guān)于VMware vSphere Big Data Extensions的信息,請參見http://www.vmware.com/hadoop。
作者介紹
張錦波
VMware大數(shù)據(jù)解決方案工程師
目前負(fù)責(zé)VMware大數(shù)據(jù)解決方案的架構(gòu)和實現(xiàn),是大數(shù)據(jù)方面的技術(shù)專家。曾擔(dān)任vSphere Big Data Extensions(BDE)、Serengeti等大數(shù)據(jù)項目的產(chǎn)品經(jīng)理,負(fù)責(zé)集群管理,高可靠性和彈性伸縮等重要功能的規(guī)劃。在此之前就職于EMC,從事數(shù)據(jù)庫管理等產(chǎn)品的研發(fā)工作。
總結(jié)
以上是生活随笔為你收集整理的Hadoop集群部署模型纵览1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaScript基础三
- 下一篇: 辽源a货翡翠,张掖a货翡翠