分布式文件系统—HDFS—入门简介
原文作者:Zh_Y_G
原文地址:HDFS入門簡介
目錄
HDFS是什么?
設計目標:
安裝配置
HDFS讀寫流程圖解
CheckPoint
HDFS是什么?
設計目標:
安裝配置
hdfs://(協議頭)host(主機名):port(端口號)/查看${HADOOP_HOME}/bin和${HADOOP_HOME}/sbin
HDFS的基本組件
HDFS讀寫流程圖解
1. 寫數據流程
?
節點服務器傳輸數據方式:網絡傳輸,以package包的形式(第8步,上傳數據的時候會把package先放到緩存隊列,如果此時package出錯的話,會默認重傳 4次)
這里的話,追加一些問題(分布式系統之間可能故障,而且網絡的不可靠性都是設計人員需要考慮的問題):socket(長連接),http(短連接),還有其他的方式,比如管道、FIFO、消息隊列
1)為什么使用長鏈接?
最簡單分布式系統是一直存在的,很少是短時間的訪問,維持心跳機制
2)什么是心跳機制?
namenode啟動的時候,會有一個加載元數據(數據的數據,類似于表的索引)和塊報告(datanode會定時(可以再配置文件中設置,所以一定要時間同步)對塊信息進行統計)的過程,namenode通過心跳機制維護整個集群的可用性。如果塊報告上傳失敗,namenode不會更新元數據,在塊報告的時候就會將其刪除掉。
3)安全模式
什么時候進入安全模式?剛剛啟動(namenode加載元數據的時候(先加載元數據鏡像到內存中,在將edits日志的操作在內存中執行一遍,namenode進入安全模式,進行塊報告,閾值安全的話30秒退出安全模式))閾值低于0.999f(默認)datanode存活數量小于0
4)怎么解除安全模式?
2. 讀數據流程
?
磁盤故障
多個副本策略
namenode故障宕機
簡單方案:secondarynamenode取出fsimage文件copy到namenode的元數據存儲目錄下
完美解決:在namenode上掛多塊磁盤,配置fs.namenode.name.dir(用,分割磁盤 )
CheckPoint
觸發條件:
注:namenode存儲元數據,secondarynamenode執行checkpoint的時候去namenode下載edits和fsimage
注意的問題:客戶端和服務器端解釋
總結
以上是生活随笔為你收集整理的分布式文件系统—HDFS—入门简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分布式文件系统—HDFS—基本介绍
- 下一篇: 分布式文件系统—HDFS—shell命令