hadoop--MapReduce框架原理
目錄
- MapReduce框架原理
- 一、InputFormat數據輸入
- 1. 切片與MapTask并行度決定機制
- 2. FielInputFormat切片機制
- 3. FileInputFormat切片大小的參數設置
- 4. TextInputFormat
- 1).FileInputFormat實現類
- 2).TextInputFormat
- 5. CombineTextInputFormat切片機制
- 1). 應用場景
- 2). 虛擬存儲切片最大值設置
- 3). 切片機制
- 二、MapReduce工作流程
MapReduce框架原理
一、InputFormat數據輸入
1. 切片與MapTask并行度決定機制
1.問題:
MapTask的并行度決定Map階段的任務處理并發度,進而影響整個job的處理速度。
但是相對于1G數據啟動8個MapTask,可以提高集群的并發處理能力。1k的數據數據啟動8個MapTask不一定會提高集群性能;MapTask并行任務是否越多越好?哪些因素影響了MapTask并行度?
MapTask 并行度由切片個數決定,切片個數由輸入文件和切片規則決定。
2.MapTask并行度決定機制
數據塊:block是HDFS物理上把數據進行分塊(0-128MB)。數據塊是HDFS存儲數據單位;
數據切片:數據切片只是邏輯上對輸入進行分片,并不會在磁盤上將其切分成片進行存儲。數據切片是MapReduce程序計算輸入數據的單位,一個切片會對應啟動一個MapTask。
tips: 切片大小最好與block大小一致,即設置默認128MB,處理更加有效率。
??:
FielInputFormat切片源碼解析:
2. FielInputFormat切片機制
3. FileInputFormat切片大小的參數設置
4. TextInputFormat
1).FileInputFormat實現類
在運行MapReduce程序時,輸入的文件格式包括:基于行的日志文件、二進制格式文件、數據庫表等。那么,針對不同的數據類型,MapReduce時如何讀取這些數據的呢?
FileInputFormat常見的接口實現類包括:TextInputFormat、KeyValueInputFormat、NLineInputFormat、CombineTextInputFormat和自定義InputFormat等。
2).TextInputFormat
TextInputFormat是默認的FileInputFormat實現類。按行讀取每條記錄。鍵時存儲該行在整個文件中的起始字節偏移量,LongWritable類型。值是這行的內容,不包括任何行終止符(換行符和回車符),Text類型。
5. CombineTextInputFormat切片機制
框架默認的TextInputFormat切片機制是對任務按文件規劃切片,不管文件多小,都會是一個單獨的切片,都會交給一個MapTask,這樣如果有大量小文件,就會產生大量的Maptask,處理效率極其低下。
1). 應用場景
CombineTextInputFormat用于小文件過多的場景,它可以將多個小文件從邏輯上規劃到一個切片中,這樣,多個小文件就可以交給一個MapTask處理。
2). 虛擬存儲切片最大值設置
CombineTextInputFormat.setmaxInputSplitSize(job,4194304); // 4M
tips: 虛擬存儲切片最大值設置最好根據實際的小文件大小情況來設置具體的值。
3). 切片機制
生成切片過程包括:虛擬存儲過程和切片過程兩部分。
二、MapReduce工作流程
切片數量影響Maptask,分區數量影響ReduceTask。
MapReduce詳細工作流程一:
??:MapTask工作機制共分為5個階段:Read階段、Map階段、Collect階段、溢寫階段、Merge階段。
溢寫階段:
.
a. 利用快速排序算法對緩存區內的數據進行排序,排序方式是,先按照分區編號 Partition 進行排序,然后按照 key 進行排序。這樣,經過排序后,數據以分區為單位聚集在 一起,且同一分區內所有數據按照 key 有序。
.
b. 按照分區編號由小到大依次將每個分區中的數據寫入任務工作目錄下的臨時文 件 output/spillN.out(N 表示當前溢寫次數)中。如果用戶設置了 Combiner,則寫入文件之 前,對每個分區中的數據進行一次聚集操作。
.
c. 將分區數據的元信息寫到內存索引數據結構 SpillRecord 中,其中每個分區的元信息包括在臨時文件中的偏移量、壓縮前數據大小和壓縮后數據大小。如果當前內存索引大 小超過 1MB,則將內存索引寫到文件 output/spillN.out.index 中。
當所有數據處理完后,MapTask 會將所有臨時文件合并成一個大文件,并保存到文件 output/file.out 中,同時生成相應的索引文件 output/file.out.index。
在進行文件合并過程中,MapTask 以分區為單位進行合并。對于某個分區,它將采用多 輪遞歸合并的方式。每輪合并 mapreduce.task.io.sort.factor(默認 10)個文件,并將產生的文 件重新加入待合并列表中,對文件排序后,重復以上過程,直到最終得到一個大文件。
讓每個 MapTask 最終只生成一個數據文件,可避免同時打開大量文件和同時讀取大量 小文件產生的隨機讀取帶來的開銷。
tips: 步驟7. 數據往內存中寫到80%的時候,新開了一個線程把內存中的舊數據往磁盤的文件進行溢寫,另一個線程繼續把從MapTask來的數據寫到內存里,因為此時還未到100%,所以新的數據可以正常寫,不需要等所有的數據都溢寫完后再開始。
若是往內存寫數據的線程寫到交界點,它會等溢寫完成后再繼續寫,此處的等待時間會比寫到100%之后溢寫等待的時間短,且此時的等待是為了保證數據干凈必須等待的。
步驟8. 在溢寫之前對數據進行排序,通過對key的索引按照字典順序進行快速排序。
步驟10. 對溢寫之后的數據進行歸并排序。
combiner在聚合操作的場景下,使得傳到Reduce的數據量變小( <a,1><a,1> ==> <a,2> ),從而提高效率。
MapReduce詳細工作流程二:
??:ReduceTask工作機制共分為3個階段:Copy階段、Sort階段、Reduce階段。
tips: 步驟13. ReduceTask主動從MapTask分區拉取數據(copy階段),而不是等待MapTask傳遞數據給它。
總結
以上是生活随笔為你收集整理的hadoop--MapReduce框架原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Unity3d截图两种方式
- 下一篇: 去线程化与智能调度