hadoop--HDFS_DataNode工作机制
目錄
- DataNode工作機(jī)制
- 數(shù)據(jù)完整性
- DataNode掉線時(shí)限參數(shù)設(shè)置
DataNode工作機(jī)制
DataNode工作機(jī)制:
1.一個(gè)數(shù)據(jù)塊再DataNode上以文件形式存儲(chǔ)在磁盤(pán)上,包括兩個(gè)文件,一個(gè)是數(shù)據(jù)本身,一個(gè)是原數(shù)據(jù)包括數(shù)據(jù)塊的長(zhǎng)度,塊數(shù)據(jù)的校驗(yàn)和,以及時(shí)間戳;
2.DataNode啟動(dòng)后向NameNode注冊(cè),通過(guò)后,周期性(6hr)的向NameNode上報(bào)所有的塊信息。
3.心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令,如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器/或刪除某個(gè)數(shù)據(jù)塊。 如果超過(guò)10分鐘沒(méi)有收到某個(gè)DataNode的心跳,
4.集群運(yùn)行中可以安全加入和推出一些機(jī)器。
tips: DataNode先自查再匯報(bào):
DN掃描自己節(jié)點(diǎn)塊信息列表的時(shí)間,默認(rèn)6小時(shí);
DN向NN匯報(bào)當(dāng)前解讀信息的時(shí)間間隔,默認(rèn)6小時(shí);
數(shù)據(jù)完整性
問(wèn):如果電腦磁盤(pán)里面存儲(chǔ)的數(shù)據(jù)是控制高鐵信號(hào)燈的紅燈信號(hào)(1)和綠燈信號(hào)(0),但是存儲(chǔ)該數(shù)據(jù)的磁盤(pán)壞了,一直顯示是綠燈,就會(huì)造成危險(xiǎn)。
同理若DataNode節(jié)點(diǎn)上的數(shù)據(jù)損壞了,卻一直沒(méi)有發(fā)現(xiàn),那該如何解決 呢?
DataNode節(jié)點(diǎn)保證數(shù)據(jù)完整性的方法:
1.當(dāng)DataNode讀取block的時(shí)候,它會(huì)計(jì)算校驗(yàn)和CheckSum;
2.如何計(jì)算后的CheckSum與block創(chuàng)建時(shí)的值不一樣,說(shuō)明block已經(jīng)損壞;
3.Client讀取其他DataNode上的Block;
4.常見(jiàn)的校驗(yàn)算法crc(32), md5(128), sga1(160);
5.DataNode在其文件創(chuàng)建后周期驗(yàn)證CheckSum。
DataNode掉線時(shí)限參數(shù)設(shè)置
TimeOut = 2 * 5 + 10 * 3;
tips: hdfs-site.xml 配置文件中的heartbeat.recheck.interval的單位為毫秒,dfs.heartbeat.interval 的單位為秒;
總結(jié)
以上是生活随笔為你收集整理的hadoop--HDFS_DataNode工作机制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Asp.Net Mvc3.0(MEF依赖
- 下一篇: 进入Ubuntu图形桌面的方法