當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）

發(fā)布時(shí)間：2024/3/13 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- 假如大數(shù)據(jù)組件中的動(dòng)物都變成神奇寶貝，那會(huì)變成什么樣？
- - 第一個(gè)神奇寶貝 Hadoop
  - 第二個(gè)神奇寶貝 Hive
  - 第三個(gè)神奇寶貝 Hbase
  - 第四個(gè)神奇寶貝的管理員 Zookeeper
  - 第五個(gè)昆蟲(chóng) Kafka
  - 第六個(gè)灌木 Flume
  - 第七個(gè)神奇寶貝 Impala
  - 第八個(gè)怪蜀黍哈利波特與Azkaban
  - 第九個(gè)神奇寶貝Sqoop
  - 第十個(gè)神奇寶貝Hue
  - 第十一個(gè)神奇寶貝 Spark
  - 第十二個(gè)神奇寶貝 Flink
  - 第十三個(gè)神奇寶貝 Kudu
  - 第十四個(gè)神奇寶貝 SurperSet
  - 第十五個(gè)神奇寶貝 Mysql Oracle

假如大數(shù)據(jù)組件中的動(dòng)物都變成神奇寶貝，那會(huì)變成什么樣？

第一個(gè)神奇寶貝 Hadoop

Hadoop

Hadoop 是采用了 Map Reduce 的一種分布式的計(jì)算框架，它是根據(jù) GFS去開(kāi)發(fā)了 HDFS 分布式文件系統(tǒng)，還有根據(jù) Big
Table 開(kāi)發(fā)了 HBase數(shù)據(jù)存儲(chǔ)系統(tǒng)。可以了解到的是，Hadoop 的開(kāi)源特性成為了分布式計(jì)算系統(tǒng)事實(shí)上的國(guó)際標(biāo)準(zhǔn)。

Hadoop又分為兩個(gè)模塊，分別是HDFS和MapReduce

HDFS

它是由Google File System而來(lái)，全稱(chēng)是Hadoop Distributed File
System，是Hadoop的分布式文件系統(tǒng)，有許多機(jī)器組成的，可以存儲(chǔ)大型數(shù)據(jù)文件。

它是由NameNode和DataNode組成，NameNode可以配置成HA(高可用)，避免單點(diǎn)故障。一般用Zookeeper來(lái)處理。兩個(gè)NameNode是同步的。

MapReduce

主要由Google Reduce而來(lái)，它簡(jiǎn)化了大型數(shù)據(jù)的處理，是一個(gè)并行的，分布式處理的編程模型。

hadoop2.0它是基于YARN框架構(gòu)建的。YARN的全稱(chēng)是Yet-Another-Resource-Negotiator。Yarn可以運(yùn)用在S3|Spark等上。

第二個(gè)神奇寶貝 Hive

Hive

它是Hadoop的數(shù)據(jù)倉(cāng)庫(kù)(DW),它可以用類(lèi)似SQL的語(yǔ)言HSQL來(lái)操作數(shù)據(jù)，很是方便，主要用來(lái)聯(lián)機(jī)分析處理OLAP（On-Line Analytical Processing）,進(jìn)行數(shù)據(jù)匯總|查詢(xún)|分析。

第三個(gè)神奇寶貝 Hbase

第四個(gè)神奇寶貝的管理員 Zookeeper

Zookeeper

它是一個(gè)分布式服務(wù)框架，是Apache Hadoop 的一個(gè)子項(xiàng)目，它主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題，如：統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。

上面的解釋有點(diǎn)抽象，簡(jiǎn)單來(lái)說(shuō)zookeeper=文件系統(tǒng)+監(jiān)聽(tīng)通知機(jī)制。

第五個(gè)昆蟲(chóng) Kafka

Kafka是由Apache軟件基金會(huì)開(kāi)發(fā)的一個(gè)開(kāi)源流處理平臺(tái)，由Scala和Java編寫(xiě)。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費(fèi)者在網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。這種動(dòng)作（網(wǎng)頁(yè)瀏覽，搜索和其他用戶(hù)的行動(dòng)）是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量的要求而通過(guò)處理日志和日志聚合來(lái)解決。對(duì)于像Hadoop一樣的日志數(shù)據(jù)和離線分析系統(tǒng)，但又要求實(shí)時(shí)處理的限制，這是一個(gè)可行的解決方案。

第六個(gè)灌木 Flume

apache Flume 是一個(gè)從可以收集例如日志，事件等數(shù)據(jù)資源，并將這些數(shù)量龐大的數(shù)據(jù)從各項(xiàng)數(shù)據(jù)資源中集中起來(lái)存儲(chǔ)的工具/服務(wù)，或者數(shù)集中機(jī)制。flume具有高可用，分布式，配置工具，其設(shè)計(jì)的原理也是基于將數(shù)據(jù)流，如日志數(shù)據(jù)從各種網(wǎng)站服務(wù)器上匯集起來(lái)存儲(chǔ)到HDFS，HBase等集中存儲(chǔ)器中。

第七個(gè)神奇寶貝 Impala

Impala是Cloudera公司主導(dǎo)開(kāi)發(fā)的新型查詢(xún)系統(tǒng)，它提供SQL語(yǔ)義，能查詢(xún)存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語(yǔ)義，但由于Hive底層執(zhí)行使用的是MapReduce引擎，仍然是一個(gè)批處理過(guò)程，難以滿足查詢(xún)的交互性。相比之下，Impala的最大特點(diǎn)也是最大賣(mài)點(diǎn)就是它的快速。

第八個(gè)怪蜀黍哈利波特與Azkaban

Azkaban是一套簡(jiǎn)單的任務(wù)調(diào)度服務(wù)，整體包括三部分webserver、dbserver、executorserver。
是linkin的開(kāi)源項(xiàng)目，開(kāi)發(fā)語(yǔ)言為Java。
Azkaban是由Linkedin開(kāi)源的一個(gè)批量工作流任務(wù)調(diào)度器。用于在一個(gè)工作流內(nèi)以一個(gè)特定的順序運(yùn)行一組工作和流程。
Azkaban定義了一種KV文件格式來(lái)建立任務(wù)之間的依賴(lài)關(guān)系，并提供一個(gè)易于使用的web用戶(hù)界面維護(hù)和跟蹤你的工作流。

第九個(gè)神奇寶貝Sqoop

Sqoop(發(fā)音：skup)是一款開(kāi)源的工具，主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql、postgresql…)間進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（例如： MySQL ,Oracle ,Postgres等）中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。

第十個(gè)神奇寶貝Hue

HUE（Hadoop User Experience）是一個(gè)與Hadoop生態(tài)系統(tǒng)緊密結(jié)合的Web UI應(yīng)用程序，可以通過(guò)Hue來(lái)查看管理HDFS上的文件、通過(guò)Hue從界面編寫(xiě)sql語(yǔ)句對(duì)Hive進(jìn)行查詢(xún)，并使用圖表直觀的展示查詢(xún)結(jié)果、可以與Oozie集成，用于創(chuàng)建和監(jiān)控工作流程等等。

第十一個(gè)神奇寶貝 Spark

Apache Spark是一個(gè)開(kāi)源集群運(yùn)算框架，相對(duì)于Hadoop的MapReduce會(huì)在運(yùn)行完工作后將中介數(shù)據(jù)存放到磁盤(pán)中，Spark使用了存儲(chǔ)器內(nèi)運(yùn)算技術(shù)，能在數(shù)據(jù)尚未寫(xiě)入硬盤(pán)時(shí)即在存儲(chǔ)器內(nèi)分析運(yùn)算

第十二個(gè)神奇寶貝 Flink

Apache Flink是由Apache軟件基金會(huì)開(kāi)發(fā)的開(kāi)源流處理框架，其核心是用Java和Scala編寫(xiě)的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序，Flink的流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。此外，Flink的運(yùn)行時(shí)本身也支持迭代算法的執(zhí)行。

第十三個(gè)神奇寶貝 Kudu

第十四個(gè)神奇寶貝 SurperSet

第十五個(gè)神奇寶貝 Mysql Oracle

總結(jié)

以上是生活随笔為你收集整理的假如大数据组件中的动物都变成神奇宝贝，那会变成什么样？（大数据的组件动漫化）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：安信证券资管清算重要业务在原生分布式数据
下一篇：阿里云ECS之下载与安装SSH(二)