MapReduce 计算框架如何运作
生活随笔
收集整理的這篇文章主要介紹了
MapReduce 计算框架如何运作
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
learn from 從0開始學大數據(極客時間)
1. MapReduce 作業啟動和運行機制
作業涉及三類關鍵進程:
-
大數據應用進程
這類進程是啟動 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 類、輸入輸出文件路徑等,并提交作業給 Hadoop 集群(JobTracker 進程) -
JobTracker 進程
這類進程根據輸入數據量,命令下面提到的 TaskTracker 進程啟動相應數量的 Map 和 Reduce 進程任務,并管理整個作業生命周期的任務調度和監控
JobTracker 進程在整個 Hadoop 集群全局唯一 -
TaskTracker 進程
負責啟動和管理 Map 進程、 Reduce 進程
因為每個數據塊都有對應的 map 函數,TaskTracker 進程通常和 HDFS 的 DataNode 進程啟動在同一個服務器
JobTracker 進程和 TaskTracker 進程是主從關系:
- 主服務器負責 分配服務器資源、作業執行的調度
- 從服務器完成具體的計算操作
2. MapReduce 數據合并與連接機制
分布式計算需要將不同服務器上的相關數據合并到一起進行下一步計算,這就是 shuffle
總結
以上是生活随笔為你收集整理的MapReduce 计算框架如何运作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java 运算符、表达式、语句
- 下一篇: LintCode MySQL 1932/