hive怎样决定reducer个数
Hadoop MapReduce程序中,reducer個(gè)數(shù)的設(shè)定極大影響執(zhí)行效率,這使得Hive怎樣決定reducer個(gè)數(shù)成為一個(gè)關(guān)鍵問題。遺憾的是Hive的估計(jì)機(jī)制很弱,不指定reducer個(gè)數(shù)的情況下,Hive會(huì)猜測確定一個(gè)reducer個(gè)數(shù),基于以下兩個(gè)設(shè)定:
1. hive.exec.reducers.bytes.per.reducer(默認(rèn)為1000^3)
2. hive.exec.reducers.max(默認(rèn)為999)
計(jì)算reducer數(shù)的公式很簡單:
N=min(參數(shù)2,總輸入數(shù)據(jù)量/參數(shù)1)通常情況下,有必要手動(dòng)指定reducer個(gè)數(shù)。考慮到map階段的輸出數(shù)據(jù)量通常會(huì)比輸入有大幅減少,因此即使不設(shè)定reducer個(gè)數(shù),重設(shè)參數(shù)2還是必要的。依據(jù)Hadoop的經(jīng)驗(yàn),可以將參數(shù)2設(shè)定為0.95*(集群中TaskTracker個(gè)數(shù))。
?
轉(zhuǎn)自?http://www.alidata.org/archives/622
轉(zhuǎn)載于:https://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843249.html
總結(jié)
以上是生活随笔為你收集整理的hive怎样决定reducer个数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强大的,方便编程的vim配置
- 下一篇: 【分布计算环境学习笔记】9 Web Se