hadoop之 参数调优
一、 hdfs-site.xml 配置文件
1、 dfs.blocksize
參數:hadoop文件塊大小
描述:新文件的默認塊大小,以字節為單位,默認 134217728 字節。
可以使用以下后綴(大小寫不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa)來指定大小(如128k、512m、1g等),
或者以字節為單位提供完整的大小。
2、 dfs.namenode.handler.count
參數:namenode的服務器線程數
描述:NameNode有一個工作線程池用來處理客戶端的遠程過程調用及集群守護進程的調用。處理程序數量越多意味著要更大的池來處理來自不同DataNode的并發心跳以及客戶端并發的元數據操作。對于大集群或者有大量客戶端的集群來說,通常需要增大參數dfs.namenode.handler.count的默認值10。設置該值的一般原則是將其設置為集群大小的自然對數乘以20,即20logN,N為集群大小。
3、 dfs.datanode.balance.bandwidthPerSec
參數: datanode 平衡帶寬
描述:指定每個datanode可以利用每秒字節數來平衡目標的最大帶寬。
4、 dfs.replication
參數:塊副本數
描述:默認的塊復制。可以在創建文件時指定復制的實際數量。如果在create time中沒有指定復制,則使用默認值3。
5、dfs.datanode.max.transfer.threads
參數:datanode 最大傳輸線程數
描述:指定用于傳輸數據進出DN的最大線程數。集群中如果不一致,會造成數據分布不均。
二、 core-site.xml 配置文件
1、 io.file.buffer.size
參數:文件的緩沖區大小
描述:用于順序文件的緩沖區大小。這個緩沖區的大小應該是硬件頁面大小的倍數(在Intel x86上是4096),它決定了在讀寫操作中緩沖了多少數據。SequenceFiles 讀取和寫入操作的緩存區大小,還有map的輸出都用到了這個緩沖區容量, 可減少 I/O 次數。建議設定為 64KB 到 128KB
三、 yarn-site.xml 配置文件
1、 yarn.nodemanager.resource.memory-mb
參數:該節點 nodemanager 資源池內存
描述:NodeManager節點上可使用的物理內存總量,默認是8192(MB),根據節點所能分配的最大的內存進行分配即可,注意為操作系統與其他服務預留資源。
2、yarn.nodemanager.resource.cpu-vcores
參數:該節點 有多少cpu加入資源池 , 默認值為8
描述:表示該節點上YARN可使用的虛擬CPU個數,默認是8,注意,目前推薦將該值設值為與物理CPU核數數目相同。如果你的節點CPU核數不夠8個,則需要調減小這個值,而YARN不會智能的探測節點的物理CPU總數。
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的hadoop之 参数调优的全部內容,希望文章能夠幫你解決所遇到的問題。