hadoop 参数
看《Hadoop:權威指南》的時候收集了書上寫的一些需要優化的參數,記錄了一下子,給大家分享一下吧。
1.mapred.task.timeout
任務超時時間,默認是10分鐘
2.mapred.map.max.attempts? mapred.reduce.max.attempts
默認任務失敗重復次數為4
3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent
不觸發錯誤的失敗的最大百分比
4.mapred.jobtracker.taskScheduler
作業調度算法設置,默認是FIFO
5.io.sort.mb io.sort.spill.percent
緩沖區大小默認為100MB,以及緩沖區閥值默認為0.8,超過80%就保存到硬盤
6.io.sort.factor
默認為10,一次只能合并10個溢出文件
7.mapred.compress.map.output
默認為false,不壓縮輸出文件
壓縮算法由mapred.map.output.compression.codec指定
8.tracker.http.Threads
tasktracker用于默認為40的啦
9.mapred.reduce.parallel.copies
reduce復制map輸出的線程數,默認是5個
10.mapred.inmem.merge.threshold
控制map輸出閥值,如果reduce函數的內存需求不大,那么設置為0
mapred.job.reduce.input.buffer.percent設置為1,可以帶來性能的提升。
11.io.sort.factor
合并因子,默認為10,意思是一次合并多少個Map輸出
如果Map輸出為50個文件,則每次把10個合并成一個文件,最后有5個中間文件。
12.mapred.child.java.opts
設置任務節點的內存大小
13.io.file.buffer.size
緩沖區,默認為4KB的緩沖區
14.mapred.map.tasks.speculative.execution mapred.reduce.tasks.speculative.execution
推測執行默認值為true,
15.mapred.job.reuse.jvm.num.tasks
默認值為1,指定作業的jvm執行任務的最大數,如果為-1,則同一作業中的任務可以共享一個JVM,數量不限
16.mapred.linerecordreader.maxlength
數據行長度的最大值,防止因為內存溢出導致的錯誤
17.SkipBadRecord開啟跳躍模式,跳過失敗的壞記錄
mapred.map.max.attemps mapred.reduce.attemps 一次只能跳過一個錯誤記錄
18.關閉安全模式
hadoop dfsadmin -safemode leave
轉載于:https://www.cnblogs.com/cenyuhai/p/3229765.html
總結
- 上一篇: IT类型职业那个简单易学
- 下一篇: rcp errata