2021年大数据Hadoop(一):Hadoop介绍
2021大數據領域優質創作博客,帶你從入門到精通,該博客每天更新,逐漸完善大數據各個知識體系的文章,幫助大家更高效學習。
有對大數據感興趣的可以關注微信公眾號:三幫大數據
Hadoop介紹
Hadoop是Apache旗下的一個用java語言實現開源軟件框架,是一個開發和運行處理大規模數據的軟件平臺。允許使用簡單的編程模型在大量計算機集群上對大型數據集進行分布式處理。
狹義上說,Hadoop指Apache這款開源框架,它的核心組件有:
HDFS(分布式文件系統):解決海量數據存儲
MAPREDUCE(分布式運算編程框架):解決海量數據計算
YARN(作業調度和集群資源管理的框架):解決資源任務調度
廣義上來說,Hadoop通常是指一個更廣泛的概念——Hadoop生態圈。
當下的Hadoop已經成長為一個龐大的體系,隨著生態系統的成長,新出現的項目越來越多,其中不乏一些非Apache主管的項目,這些項目對HADOOP是很好的補充或者更高層的抽象。比如:
| 框架 | 用途 |
| HDFS | ?分布式文件系統 |
| MapReduce | 分布式運算程序開發框架 |
| ZooKeeper | 分布式協調服務基礎組件 |
| HIVE | 基于HADOOP的分布式數據倉庫,提供基于SQL的查詢數據操作 |
| FLUME | 日志數據采集框架 |
| oozie | 工作流調度框架 |
| Sqoop | 數據導入導出工具(比如用于mysql和HDFS之間) |
| Impala | 基于hive的實時sql查詢分析 |
| Mahout | 基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫 |
- 📢博客主頁:https://lansonli.blog.csdn.net
- 📢歡迎點贊 👍 收藏 ?留言 📝 如有錯誤敬請指正!
- 📢本文由 Lansonli 原創,首發于 CSDN博客🙉
- 📢大數據系列文章會每天更新,停下休息的時候不要忘了別人還在奔跑,希望大家抓緊時間學習,全力奔赴更美好的生活?
總結
以上是生活随笔為你收集整理的2021年大数据Hadoop(一):Hadoop介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021年大数据环境搭建(二):分布式环
- 下一篇: 2021年大数据Hadoop(二):Ha