Hadoop3.0的新特性
生活随笔
收集整理的這篇文章主要介紹了
Hadoop3.0的新特性
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載:http://blog.csdn.net/sinat_31726559/article/details/52103229 ?點擊閱讀原文
--------------------------------------
1. Hadoop3.0簡介
Hadoop 3.0的alpha版預計今年夏天發布,GA版本11月或12月發布。
Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR NativeTask優化、YARN基于cgroup的內存和磁盤IO隔離、YARN container resizing等。
2. Hadoop3.0新特性
2.1 HadoopCommon
(1)精簡Hadoop內核,包括剔除過期的API和實現,將默認組件實現替換成最高效的實現(比如將FileOutputCommitter缺省實現換為v2版本,廢除hftp轉由webhdfs替代,移除Hadoop子實現序列化庫org.apache.hadoop.Records (2)Classpath isolation以防止不同版本jar包沖突,比如googleGuava在混合使用Hadoop、HBase和Spark時,很容易產生沖突。(https://issues.apache.org/jira/browse/HADOOP-11656) (3)Shell腳本重構。 Hadoop3.0對Hadoop的管理腳本進行了重構,修復了大量bug,增加了新特性,支持動態命令等。[url=]https://issues.apache.org/jira/browse/HADOOP-9902[/url]
2.2 HadoopHDFS
(1)HDFS支持數據的擦除編碼,這使得HDFS在不降低可靠性的前提下,節省一半存儲空間。(https://issues.apache.org/jira/browse/HDFS-7285) (2)多NameNode支持,即支持一個集群中,一個active、多個standbynamenode部署方式。注:多ResourceManager特性在hadoop 2.0中已經支持。(https://issues.apache.org/jira/browse/HDFS-6440)
2.3 HadoopMapReduce
(1)Tasknative優化。為MapReduce增加了C/C++的map outputcollector實現(包括Spill,Sort和IFile等),通過作業級別參數調整就可切換到該實現上。對于shuffle密集型應用,其性能可提高約30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841) (2)MapReduce內存參數自動推斷。在Hadoop2.0中,為MapReduce作業設置內存參數非常繁瑣,涉及到兩個參數:mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts,一旦設置不合理,則會使得內存資源浪費嚴重,比如將前者設置為4096MB,但后者卻是“-Xmx2g”,則剩余2g實際上無法讓javaheap使用到。(https://issues.apache.org/jira/browse/MAPREDUCE-5785)
2.4 HadoopYARN
(1)基于cgroup的內存隔離和IO Disk隔離(https://issues.apache.org/jira/browse/YARN-2619) (2)用curator實現RM leader選舉(https://issues.apache.org/jira/browse/YARN-4438) (3)containerresizing(https://issues.apache.org/jira/browse/YARN-1197) (4)Timelineserver next generation([url=]https://issues.apache.org/jira/browse/YARN-2928[/url])
3.??Hadoop3.0總結
Hadoop 3.0的alpha版預計今年夏天發布,GA版本11月或12月發布。
Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR NativeTask優化、YARN基于cgroup的內存和磁盤IO隔離、YARN container resizing等。
-------------
更多的Java,Angular,Android,大數據,J2EE,Python,數據庫,Linux,Java架構師,:
http://www.cnblogs.com/zengmiaogen/p/7083694.html
總結
以上是生活随笔為你收集整理的Hadoop3.0的新特性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle Database 11g
- 下一篇: hive数据库定义