Hadoop学习第一天
1.hadoop量大,數目多。
存儲:分布式,集群的概念,管理(主節點、從節點),HDFS。
分析:分布式、并行、離線計算框架,管理(主節點、從節點),MapReduce。
來源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的數據庫,分布式的大數據存儲和可擴展).
HDFS+MR思想:盡量移動計算到數據端,而不是移動數據到計算端。
HDFS默認存儲是三份,解決硬件和網絡故障問題。
HDFS思想:文件單次寫入,多次讀取,有文件副本
MR思想:分而治之,排序優化
hadoop1.x核心:hadoop common,HDFS,MapReduce
hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(資源管理平臺和任務調度器,相當于一個云操作系統)
hadoop生態圈1.x:HDFS(分布式文件系統),MapReduce(分布式計算),ZooKeeper(分布式協作服務), ?????????????
????????????????????????? ?HBase(實時分布式數據庫),Hive(數據倉庫),Pig(數據流出來),Mahout(數據挖掘庫),
?????? Sqoop(數據庫ETL工具,和關系數據庫導入導出),Flume(日志工具),Ambari(安裝部署配置和管理工具) hadoop生態圈2.x:比1.x多了一個YARN,它主要作用包括資源的管理和任務的調度。(NameNode是2個或多個)
HDFS(分布式文件系統)
1.NameNode:屬于管理層,管理數據存儲,SecondaryNameNode輔助NameNode,
2.DataNodes:屬于應用層,用戶進行數據存儲,被NameNode進行管理,定期向NameNode進行匯報,執行NameNode分發的任務。
MapReduce(并行計算框架)
1.jobTracker:屬于管理層,管理集群資源和對任務進行資源調度,監控人去執行
2.TaskTracker:屬于應用層,執行jobTracher分發的任務,并向jobTracher匯報工作情況。
以上5個是Apache hadoop守護進程
NameNode主節點記錄存儲文件的元素據,主要有4塊(文件名,目錄結構,屬性,文件塊列表所屬dataNode)。
SecondaryNameNode:監控HDFS狀態的復制后臺程序,每隔一段時間獲取元素據快照。(主要記錄后期修改后文件的信息)
DataNode:本地文件系統存儲文件塊數據和數據校驗和。
jobTracker 負責接收用戶提交的作業,負責啟動跟蹤任務執行。
TaskTracker 負責執行由jobTracker分配的任務,管理的各個任務在每個節點上的執行。
(jobTracker和TaskTracker通過心跳heartbeat進行交互)
?
轉載于:https://www.cnblogs.com/yuliantao/p/5332847.html
總結
以上是生活随笔為你收集整理的Hadoop学习第一天的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字符串处理(POJ1782)
- 下一篇: Codeforces 658D Bear