大数据处理架构Hadoop
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                大数据处理架构Hadoop
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                Hadoop項目結構
 Hive 數據倉庫:把SQL語句轉換成MapReduce作業
 Pig流數據處理:一個基于Hadoop的大規模數據分析平臺提供類似SQL的查詢語言pig Latin
 Oozie作業流調度系統:Hadoop上的工作流管理系統
 Zookeeper分布式協調服務:提供分布式協調一致性服務
 HBase列族數據庫:Hadoop上的非關系型的分布式數據庫(隨機讀寫)
 Flume 日志收集分析框架:一個高可用的,高可靠的分布式的海量日志采集、聚合和傳輸的系統
 Sqoop 數據導入導出:用于Hadoop與傳統數據庫之間進行數據傳遞(關系型數據庫到HDFS、HBase、Hive互導)
 YARN框架:資源管理和調度器
 MapReduce:專門做離線計算和批處理
 Tze:把很多的MapReduce作業進行分析優化構建成有向無環圖
 Spark:邏輯與MapReduce是一樣的,也是用Reduce函數去做數據處理(區別:Spark基于內存處理,MapReduce基于磁盤處理的,比MapReduce高一個數量級)
 Ambari 部署工具:Hadoop快速部署工具支持Apache Hadoop集群的供應、管理和監控
本文筆記來自中國大學MOOC 廈門大學林子雨老師的《大數據原理與應用》
總結
以上是生活随笔為你收集整理的大数据处理架构Hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Hadoop的安装与使用
- 下一篇: Python元组与列表
