Hadoop机架感知
背景
? ? 分布式的集群通常包含非常多的機(jī)器,由于受到機(jī)架槽位和交換機(jī)網(wǎng)口的限制,通常大型的分布式集群都會跨好幾個(gè)機(jī)架,由多個(gè)機(jī)架上的機(jī)器共同組成一個(gè)分布式集群。機(jī)架內(nèi)的機(jī)器之間的網(wǎng)絡(luò)速度通常都會高于跨機(jī)架機(jī)器之間的網(wǎng)絡(luò)速度,并且機(jī)架之間機(jī)器的網(wǎng)絡(luò)通信通常受到上層交換機(jī)間網(wǎng)絡(luò)帶寬的限制。
? ? 具體到Hadoop集群,由于hadoop的HDFS對數(shù)據(jù)文件的分布式存放是按照分塊block存儲,每個(gè)block會有多個(gè)副本(默認(rèn)為3),并且為了數(shù)據(jù)的安全和高效,所以hadoop默認(rèn)對3個(gè)副本的存放策略為:
第一個(gè)block副本放在和client所在的node里(如果client不在集群范圍內(nèi),則這第一個(gè)node是隨機(jī)選取的)。
第二個(gè)副本放置在與第一個(gè)節(jié)點(diǎn)不同的機(jī)架中的node中(隨機(jī)選擇)。?
第三個(gè)副本似乎放置在與第一個(gè)副本所在節(jié)點(diǎn)同一機(jī)架的另一個(gè)節(jié)點(diǎn)上
如果還有更多的副本就隨機(jī)放在集群的node里。
?
這樣的策略可以保證對該block所屬文件的訪問能夠優(yōu)先在本rack下找到,如果整個(gè)rack發(fā)生了異常,也可以在另外的rack上找到該block的副本。這樣足夠的高效,并且同時(shí)做到了數(shù)據(jù)的容錯(cuò)。
但是,hadoop對機(jī)架的感知并非是自適應(yīng)的,亦即,hadoop集群分辨某臺slave機(jī)器是屬于哪個(gè)rack并非是只能的感知的,而是需要hadoop的管理者人為的告知hadoop哪臺機(jī)器屬于哪個(gè)rack,這樣在hadoop的namenode啟動初始化時(shí),會將這些機(jī)器與rack的對應(yīng)信息保存在內(nèi)存中,用來作為對接下來所有的HDFS的寫塊操作分配datanode列表時(shí)(比如3個(gè)block對應(yīng)三臺datanode)的選擇datanode策略,做到hadoop allocate block的策略:盡量將三個(gè)副本分布到不同的rack。
? ? 接下來的問題就是:通過什么方式能夠告知hadoop namenode哪些slaves機(jī)器屬于哪個(gè)rack?以下是配置步驟。
?
配置
? ? 默認(rèn)情況下,hadoop的機(jī)架感知是沒有被啟用的。所以,在通常情況下,hadoop集群的HDFS在選機(jī)器的時(shí)候,是隨機(jī)選擇的,也就是說,很有可能在寫數(shù)據(jù)時(shí),hadoop將第一塊數(shù)據(jù)block1寫到了rack1上,然后隨機(jī)的選擇下將block2寫入到了rack2下,此時(shí)兩個(gè)rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁?#xff0c;再接下來,在隨機(jī)的情況下,又將block3重新又寫回了rack1,此時(shí),兩個(gè)rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大,或者往hadoop推送的數(shù)據(jù)量非常大的時(shí)候,這種情況會造成rack之間的網(wǎng)絡(luò)流量成倍的上升,成為性能的瓶頸,進(jìn)而影響作業(yè)的性能以至于整個(gè)集群的服務(wù)。
? ? 要將hadoop機(jī)架感知的功能啟用,配置非常簡單,在namenode所在機(jī)器的hadoop-site.xml配置文件中配置一個(gè)選項(xiàng):
這個(gè)配置選項(xiàng)的value指定為一個(gè)可執(zhí)行程序,通常為一個(gè)腳本,該腳本接受一個(gè)參數(shù),輸出一個(gè)值。接受的參數(shù)通常為某臺datanode機(jī)器的ip地址,而輸出的值通常為該ip地址對應(yīng)的datanode所在的rack,例如”/rack1”。Namenode啟動時(shí),會判斷該配置選項(xiàng)是否為空,如果非空,則表示已經(jīng)用機(jī)架感知的配置,此時(shí)namenode會根據(jù)配置尋找該腳本,并在接收到每一個(gè)datanode的heartbeat時(shí),將該datanode的ip地址作為參數(shù)傳給該腳本運(yùn)行,并將得到的輸出作為該datanode所屬的機(jī)架,保存到內(nèi)存的一個(gè)map中。
? ? 至于腳本的編寫,就需要將真實(shí)的網(wǎng)絡(luò)拓樸和機(jī)架信息了解清楚后,通過該腳本能夠?qū)C(jī)器的ip地址正確的映射到相應(yīng)的機(jī)架上去。一個(gè)簡單的實(shí)現(xiàn)如下:
#!/usr/bin/python #-*-coding:UTF-8 -*- import sys rack = {"hadoopnode-176.tj":"rack1", "hadoopnode-178.tj":"rack1", "hadoopnode-179.tj":"rack1", "hadoopnode-180.tj":"rack1", "hadoopnode-186.tj":"rack2", "hadoopnode-187.tj":"rack2", "hadoopnode-188.tj":"rack2", "hadoopnode-190.tj":"rack2", "192.168.1.15":"rack1", "192.168.1.17":"rack1", "192.168.1.18":"rack1", "192.168.1.19":"rack1", "192.168.1.25":"rack2", "192.168.1.26":"rack2", "192.168.1.27":"rack2", "192.168.1.29":"rack2", } if __name__=="__main__": print "/" + rack.get(sys.argv[1],"rack0")由于沒有找到確切的文檔說明 到底是主機(jī)名還是ip地址會被傳入到腳本,所以在腳本中最好兼容主機(jī)名和ip地址,如果機(jī)房架構(gòu)比較復(fù)雜的話,腳本可以返回如:/dc1/rack1 類似的字符串。
執(zhí)行命令:chmod +x RackAware.py
重啟namenode,如果配置成功,namenode啟動日志中會輸出:
2011-12-21 14:28:44,495 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /rack1/192.168.1.15:50010?
網(wǎng)絡(luò)拓?fù)錂C(jī)器之間的距離
這里基于一個(gè)網(wǎng)絡(luò)拓?fù)浒咐?#xff0c;介紹在復(fù)雜的網(wǎng)絡(luò)拓?fù)渲衕adoop集群每臺機(jī)器之間的距離
?
??
有了機(jī)架感知,NameNode就可以畫出上圖所示的datanode網(wǎng)絡(luò)拓?fù)鋱D。D1,R1都是交換機(jī),最底層是datanode。則H1的rackid=/D1/R1/H1,H1的parent是R1,R1的是D1。這些rackid信息可以通過topology.script.file.name配置。有了這些rackid信息就可以計(jì)算出任意兩臺datanode之間的距離。
distance(/D1/R1/H1,/D1/R1/H1)=0 相同的datanode distance(/D1/R1/H1,/D1/R1/H2)=2 同一rack下的不同datanode distance(/D1/R1/H1,/D1/R1/H4)=4 同一IDC下的不同datanode distance(/D1/R1/H1,/D2/R3/H7)=6 不同IDC下的datanode?
參考?https://issues.apache.org/jira/secure/attachment/12345251/Rack_aware_HDFS_proposal.pdf?
? ? ? ?http://blog.csdn.net/hjwang1/article/details/6592714
? ? ? ?http://blog.csdn.net/azhao_dn/article/details/7091258
總結(jié)
以上是生活随笔為你收集整理的Hadoop机架感知的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop2.2.0+HA+zooke
- 下一篇: Hadoop推测执行(以空间换取时间)