大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)
?
?
不多說(shuō),直接上干貨!
?
?
之前在微信公眾平臺(tái)里寫(xiě)過(guò)
大數(shù)據(jù)入門(mén)基礎(chǔ)系列之初步認(rèn)識(shí)hadoop生態(tài)系統(tǒng)圈
http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA
?
?
?
?
?
大數(shù)據(jù)入門(mén)基礎(chǔ)系列之初步認(rèn)識(shí)大數(shù)據(jù)生態(tài)系統(tǒng)圈
1.概述
最近收到一些同學(xué)和朋友的郵件,說(shuō)能不能整理一下 Hadoop 生態(tài)圈的相關(guān)內(nèi)容,然后分享一些,我覺(jué)得這是一個(gè)不錯(cuò)的提議,于是,花了一些業(yè)余時(shí)間整理了 Hadoop 的生態(tài)系統(tǒng),并將其進(jìn)行了歸納總結(jié),進(jìn)而將其以表格的形式進(jìn)行了羅列。涉及的內(nèi)容有以下幾點(diǎn):
- 分布式文件系統(tǒng)
- 分布式編程模型
- NoSQL 數(shù)據(jù)庫(kù)
- SQL-On-Hadoop
- 數(shù)據(jù)采集
- 編程服務(wù)中間件
- 調(diào)度系統(tǒng)
- 系統(tǒng)部署
- 數(shù)據(jù)可視化
?
?
2.內(nèi)容
2.1 分布式文件系統(tǒng)
2.1.1 Apache HDFS
在分布式文件系統(tǒng)當(dāng)中,首先為大家所熟悉的是 Apache 的 HDFS。全稱(chēng)為 Hadoop Distributed File System,由多臺(tái)機(jī)器組建的集群,存儲(chǔ)大數(shù)據(jù)文件。HDFS 的靈感來(lái)自于 Google File System(GFS)。Hadoop 2.x 版本之前,NameNode 是存在單點(diǎn)故障的。在 ZooKeeper 的高可用性功能解決了 HDFS 的這個(gè)問(wèn)題,通過(guò)提供運(yùn)行兩個(gè)冗余的節(jié)點(diǎn)在同一個(gè)集群中進(jìn)行主備切換,即:Active & Standby
相關(guān)鏈接地址如下所示:
?
?2.1.2 Red Hat?GlusterFS
GlusterFS 是一個(gè)擴(kuò)展的網(wǎng)絡(luò)附加存儲(chǔ)文件系統(tǒng)。GlusterFS 最初是由 Gluster?公司開(kāi)發(fā)的,然后,由 Red Hat 公司在2011年進(jìn)行了購(gòu)買(mǎi)。2012年六月,Red Hat 存儲(chǔ)服務(wù)器被宣布為商業(yè)支持的整合與 Red Hat 企業(yè) Linux GlusterFS。Gluster?文件系統(tǒng),現(xiàn)在稱(chēng)為 Red Hat 存儲(chǔ)服務(wù)器。
相關(guān)鏈接地址如下所示:
?
2.1.3 QFS
QFS 是一個(gè)開(kāi)源的分布式文件系統(tǒng)軟件包,用于對(duì) MapReduce 批處理工作負(fù)載。她被設(shè)計(jì)為一種 Apache Hadoop 的 HDFS 另一種選擇方案,用于大型加工集群提供更好的性能和成本效率。它用 C++ 和固定占用內(nèi)存管理。QFS 使用?Reed-Solomon 糾錯(cuò)保證可靠的數(shù)據(jù)訪問(wèn)方法。Reed-Solomon 編碼在海量存儲(chǔ)系統(tǒng)中被廣泛應(yīng)用,以糾正與媒體缺陷相關(guān)的突發(fā)錯(cuò)誤。而不是存儲(chǔ)每個(gè)文件或是像 HDFS 一樣,存儲(chǔ) 3+ 次以上,QFS 僅僅需要 1.5 倍的原始容量,因?yàn)樗鎯?chǔ)在哎九個(gè)不同的磁盤(pán)驅(qū)動(dòng)上。
相關(guān)鏈接地址如下所示:
?
2.1.4?Ceph Filesystem
Ceph 是一個(gè)免費(fèi)的軟件存儲(chǔ)平臺(tái),被設(shè)計(jì)為對(duì)象,塊和從單一節(jié)點(diǎn)到集群的文件存儲(chǔ)。它的主要目標(biāo)是完全分布式無(wú)單點(diǎn)鼓掌,可水平擴(kuò)展到 PB 容量,對(duì)多種工作負(fù)載的高性能,以及高可用性。
相關(guān)鏈接地址如下所示:
?
2.1.5?Lustre file system
Lustre 是由 Linux 和 Cluster 演變而來(lái),是為了解決海量存儲(chǔ)問(wèn)題而設(shè)計(jì)的全新的文件系統(tǒng)。可支持達(dá) 1w 節(jié)點(diǎn),PB 的存儲(chǔ)容量,100GB/S 的傳輸速度。Lustre 是基于對(duì)象的存儲(chǔ)系統(tǒng),減少元數(shù)據(jù)服務(wù)器的 iNode。它實(shí)際上還是將數(shù)據(jù)條帶化到各個(gè)存儲(chǔ)目標(biāo)上,所以可以實(shí)現(xiàn)高度聚合 IO 能力。Lustre 原生態(tài)支持海量小文件讀寫(xiě);且對(duì)大文件讀寫(xiě)在 Linux 內(nèi)核做了特殊優(yōu)化。另外,Lustre 是個(gè)對(duì)用戶(hù)透明的 Share 文件系統(tǒng),條帶化數(shù)據(jù)的位置信息不能完美的暴露出來(lái),所以要用上 Hadoop ?的 MapReduce 優(yōu)勢(shì)還需要做很多工作。
相關(guān)鏈接地址如下所示:
關(guān)于分布式文件系統(tǒng)的內(nèi)容就贅述到這里;其它分布式文件系統(tǒng),如:Alluxio,GridGain?以及?XtreemFS[1.官網(wǎng),2.Flink on XtreemFS,3.Spark XtreemFS] 等這里就不多贅述了,大家可以下去自己普及一下。
?
?
2.2 分布式編程模型
2.2.1?Apache Ignite
Apache Ignite 內(nèi)存數(shù)組組織框架是一個(gè)高性能、集成和分布式的內(nèi)存計(jì)算和事務(wù)平臺(tái),用于大規(guī)模的數(shù)據(jù)集處理,比傳統(tǒng)的基于磁盤(pán)或閃存的技術(shù)具有更高的性能,同時(shí)他還為應(yīng)用和不同的數(shù)據(jù)源之間提供高性能、分布式內(nèi)存中數(shù)據(jù)組織管理的功能。
它包含一個(gè)分布式的 Key/Value 存儲(chǔ)在內(nèi)存中,SQL 執(zhí)行能力,MapReduce 和其它計(jì)算,分布式數(shù)據(jù)結(jié)構(gòu),連續(xù)查詢(xún),消息和事件子系統(tǒng)。Hadoop 和 Spark 均有集成。Ignite 編譯于 Java,提供 .NET 和 C++ 的 API 接口。
相關(guān)鏈接地址如下所示:
?
2.2.2 Apache MapReduce
這個(gè)大家應(yīng)該不陌生,這是一個(gè)經(jīng)典的編程模型,用于在集群上處理并發(fā),分布式大數(shù)據(jù)集。當(dāng)前版本編譯于 YARN 框架。這里就不多贅述了。
相關(guān)鏈接地址,如下所示:
?
2.2.3 Apache ?Spark
這個(gè)編程模型,大家也不會(huì)陌生,現(xiàn)在 Spark 的應(yīng)用場(chǎng)景和社區(qū)活躍度較高。快速的執(zhí)行能力,豐富的編程 API 接口,使其備受恩寵。
相關(guān)鏈接地址,如下所示:
?
2.2.4 Apache Storm
做實(shí)時(shí)流水?dāng)?shù)據(jù)處理的同學(xué),應(yīng)該也不陌生,可以嫁接多種消息中間件(如Kafka,MQ等)。
相關(guān)鏈接地址,如下所示:
?
2.2.5 Apache Flink
Apache Flink 是一個(gè)面向分布式數(shù)據(jù)流處理和批量數(shù)據(jù)處理的開(kāi)源計(jì)算平臺(tái),它能夠基于同一個(gè)Flink運(yùn)行時(shí)(Flink Runtime),提供支持流處理和批處理兩種類(lèi)型應(yīng)用的功能?,F(xiàn)有的開(kāi)源計(jì)算方案,會(huì)把流處理和批處理作為兩種不同的應(yīng)用類(lèi)型,因?yàn)樗麄兯鼈兯峁┑腟LA是完全不相同的:流處理一般需要支持低延遲、Exactly-once保證,而批處理需要支持高吞吐、高效處理,所以在實(shí)現(xiàn)的時(shí)候通常是分別給出兩套實(shí)現(xiàn)方法,或者通過(guò)一個(gè)獨(dú)立的開(kāi)源框架來(lái)實(shí)現(xiàn)其中每一種處理方案。例如,實(shí)現(xiàn)批處理的開(kāi)源方案有MapReduce、Tez、Crunch、Spark,實(shí)現(xiàn)流處理的開(kāi)源方案有Samza、Storm。 Flink在實(shí)現(xiàn)流處理和批處理時(shí),與傳統(tǒng)的一些方案完全不同,它從另一個(gè)視角看待流處理和批處理,將二者統(tǒng)一起來(lái):Flink是完全支持流處理,也就是說(shuō)作為流處理看待時(shí)輸入數(shù)據(jù)流是無(wú)界的;批處理被作為一種特殊的流處理,只是它的輸入數(shù)據(jù)流被定義為有界的。基于同一個(gè)Flink運(yùn)行時(shí)(Flink Runtime),分別提供了流處理和批處理API,而這兩種API也是實(shí)現(xiàn)上層面向流處理、批處理類(lèi)型應(yīng)用框架的基礎(chǔ)。
相關(guān)鏈接地址,如下所示:
?
這里列舉了熱度較高的分布式編程模型,其它的編程模型,如下表所示:
| 分布式編程模型 | 相關(guān)鏈接地址 |
| Apache Pig | 1.官網(wǎng) 2.示例 |
| ?JAQL | 1.JAQLL in Google Code 2.What is JAQL? |
| ?Facebook Corona | 1.Corona on Github |
| ?Apache Twill | 1.Twill 官網(wǎng) |
| ?Apache Tez | 1.Tez 官網(wǎng) 2.Hortonworks Apacha Tez Page |
?
2.3 NoSQL 數(shù)據(jù)庫(kù)
2.3.1 列數(shù)據(jù)模型
2.3.1.1 Apache HBase
靈感來(lái)自于 Google 的 BigTable。非關(guān)系性分布式數(shù)據(jù)庫(kù)。隨機(jī)實(shí)時(shí)讀寫(xiě)操作列擴(kuò)展的大表。
相關(guān)鏈接地址,如下所示:
?
2.3.1.2 Apache Cassandra
Apache Cassandra 是一套開(kāi)源分布式 Key-Value 存儲(chǔ)系統(tǒng)。它最初由 Facebook 開(kāi)發(fā),用于儲(chǔ)存特別大的數(shù)據(jù)。 Cassandra 不是一個(gè)數(shù)據(jù)庫(kù),它是一個(gè)混合型的非關(guān)系的數(shù)據(jù)庫(kù),類(lèi)似于 Google 的 BigTable。Cassandra 的數(shù)據(jù)模型是基于列族(Column Family)的四維或五維模型。它借鑒了 Amazon 的 Dynamo 和 Google's BigTable 的數(shù)據(jù)結(jié)構(gòu)和功能特點(diǎn),采用 Memtable 和 SSTable 的方式進(jìn)行存儲(chǔ)。在 Cassandra 寫(xiě)入數(shù)據(jù)之前,需要先記錄日志 ( CommitLog ),然后數(shù)據(jù)開(kāi)始寫(xiě)入到 Column Family 對(duì)應(yīng)的 Memtable 中,Memtable 是一種按照 key 排序數(shù)據(jù)的內(nèi)存結(jié)構(gòu),在滿(mǎn)足一定條件時(shí),再把 Memtable 的數(shù)據(jù)批量的刷新到磁盤(pán)上,存儲(chǔ)為 SSTable 。
相關(guān)鏈接地址,如下所示:
?
2.3.1.3 Apache Kudu
Kudu 是 Cloudera 開(kāi)源的列式存儲(chǔ)引擎,具有一下幾個(gè)特點(diǎn):
- C++ 語(yǔ)言開(kāi)發(fā)
- 高效處理類(lèi) OLAP 負(fù)載
- 與 MR,Spark 以及 Hadoop 生態(tài)系統(tǒng)中其它組件友好集成
- 可以與 Cloudera Impala 集成
- 靈活的一致性模型
- 順序和隨機(jī)寫(xiě)并存的場(chǎng)景下,仍能達(dá)到良好的性能
- 高可用,使用 Raft 協(xié)議保證數(shù)據(jù)高可靠存儲(chǔ)
- 結(jié)構(gòu)化數(shù)據(jù)模型
相關(guān)鏈接地址,如下所示:
?
2.3.2 文檔數(shù)據(jù)模型
2.3.2.1 MongoDB
面向文檔的數(shù)據(jù)庫(kù)系統(tǒng)。它是數(shù)據(jù)庫(kù)系統(tǒng)中 NoSQL 家族的一部分。MongoDB 存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)以 JSON 格式的文件形式進(jìn)行存儲(chǔ)。
相關(guān)鏈接地址,如下所示:
?
2.3.3 Key-Value 數(shù)據(jù)模型
2.3.3.1 Redis 數(shù)據(jù)庫(kù)
Redis是一個(gè)開(kāi)源的使用ANSI C語(yǔ)言編寫(xiě)、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù),并提供多種語(yǔ)言的API。
相關(guān)鏈接地址,如下所示:
?
?
2.4 SQL-On-Hadoop
2.4.1 Apache Hive
一款由 Facebook 開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)聚合,查詢(xún)和分析。提供類(lèi) SQL 語(yǔ)言:HiveQL
相關(guān)鏈接地址,如下所示:
?
2.4.2 Apache Trafodion
Trafodion是一個(gè)構(gòu)建在Hadoop/HBase基礎(chǔ)之上的關(guān)系型數(shù)據(jù)庫(kù),它完全開(kāi)源免費(fèi)。Trafodion能夠完整地支持ANSI SQL,并且提供ACID事務(wù)保證。和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)不同的地方在于,Trafodion利用底層Hadoop的橫向擴(kuò)展能力,可以提供極高的擴(kuò)展性。而傳統(tǒng)數(shù)據(jù)庫(kù),比如MySQL,在數(shù)據(jù)量達(dá)到P級(jí)別的時(shí)候就很難處理。而Trafodion卻可以借助HBase的擴(kuò)展性,僅通過(guò)增加普通Linux服務(wù)器就可以增加計(jì)算和存儲(chǔ)能力,進(jìn)而支持大數(shù)據(jù)應(yīng)用。
相關(guān)鏈接地址,如下所示:
?
2.4.3 Apache Drill
? Drill 是 Apache 開(kāi)源的,用于大數(shù)據(jù)探索的 SQL 查詢(xún)引擎。她在大數(shù)據(jù)應(yīng)用中,面對(duì)結(jié)構(gòu)化數(shù)據(jù)和變化迅速的數(shù)據(jù),她能夠去兼容,并且高性能的去分析,同時(shí),還提供業(yè)界都熟悉的標(biāo)準(zhǔn)的查詢(xún)語(yǔ)言,即:ANSI SQL 生態(tài)系統(tǒng)。Drill 提供即插即用,在現(xiàn)有的 Hive,HBase,S3 等存儲(chǔ)介質(zhì)中可以隨時(shí)整合部署。
相關(guān)鏈接地址,如下所示:
?
2.4.4?Cloudera Impala
類(lèi)似于 Drill 的一款大數(shù)據(jù)實(shí)時(shí)查詢(xún)引擎,依賴(lài) CDH 環(huán)境。
相關(guān)鏈接地址,如下所示:
?
2.4.5 Apache Kylin
Kylin 是一款開(kāi)源的分布式數(shù)據(jù)分析引擎由 eBay 公司提供。支持 Hadoop 大數(shù)據(jù)集 OLAP 業(yè)務(wù)/
相關(guān)鏈接地址,如下所示:
另外,還有[Apache Tajo],[Apache Phoenix] 等,這里就不一一列舉了。
?
?
2.5 數(shù)據(jù)采集
2.5.1 Apache Flume
Flume 是一個(gè)分布式,可靠的,可用的服務(wù),有效的收集,聚合和移動(dòng)海量的日志數(shù)據(jù)。它有一個(gè)簡(jiǎn)單而靈活的架構(gòu),基于流數(shù)據(jù)流。具有很好的冗余和容錯(cuò)性,以及可靠性和多故障轉(zhuǎn)移和恢復(fù)機(jī)制。它使用一個(gè)簡(jiǎn)單的可擴(kuò)展數(shù)據(jù)模型,并允許在線分析應(yīng)用。
相關(guān)鏈接地址,如下所示:
?
2.5.2 Apache Sqoop
一款從 HDFS 到 RDBMS 之間做數(shù)據(jù)交互的工具。類(lèi)似于 Flume。
相關(guān)鏈接地址,如下所示:
?
2.5.3 Apache Kafka
分布式發(fā)布-訂閱消息系統(tǒng),用于處理流式海量數(shù)據(jù)。Kafka 是一個(gè)由 LinkedIn 開(kāi)發(fā)的消息隊(duì)列。能嫁接 HDFS 這樣的存儲(chǔ)介質(zhì),能被 Storm,Spark這類(lèi)實(shí)時(shí)或類(lèi)實(shí)時(shí)數(shù)據(jù)模型消費(fèi)。
相關(guān)鏈接地址,如下所示:
?
2.5.4 Apache NiFi
Apache NiFi 是由美國(guó)國(guó)家安全局(NSA)貢獻(xiàn)給 Apache 基金會(huì)的開(kāi)源項(xiàng)目,目前已被順利孵化完成成為 Apache 的頂級(jí)項(xiàng)目之一。Apache NiFi 其設(shè)計(jì)目標(biāo)是自動(dòng)化系統(tǒng)間的數(shù)據(jù)流?;谄涔ぷ髁魇降木幊汤砟?#xff0c;NiFi 擁有易使用,高可用以及高配置等特性。其尤為突出的兩大特性是:強(qiáng)大的用戶(hù)界面和良好的數(shù)據(jù)回溯工具。NiFi 的用戶(hù)界面允許用戶(hù)在瀏覽器中直觀的理解并與數(shù)據(jù)流進(jìn)行交互,快速和安全的進(jìn)迭代。其數(shù)據(jù)回溯特性允許用戶(hù)查看一個(gè)對(duì)象如何在系統(tǒng)間流轉(zhuǎn),回放以及可視化關(guān)鍵步驟之前以及之后發(fā)生的情況,包括大量復(fù)雜的圖式轉(zhuǎn)換,Fork,Join 以及其它操作等。另外,NiFi 使用基于組件的擴(kuò)展模型用以為復(fù)雜的數(shù)據(jù)流快速增加功能,開(kāi)箱即用的組件中,處理文件系統(tǒng)的包括 FTP,SFTP 以及 HTTP 等,同樣也支持 HDFS。
相關(guān)鏈接地址,如下所示:
另外,還有 Facebook Scribe,Apache Chukwa,Netflix Suro,Apache Samza,Cloudera Morphline,HIHO 等套件就不一一介紹了,大家可以下去了解這些數(shù)據(jù)采集套件相關(guān)內(nèi)容。
?
2.6 編程服務(wù)中間件
2.6.1 Apache Thrift
Thrift 是一個(gè)軟件框架,用來(lái)進(jìn)行可擴(kuò)展且跨語(yǔ)言的服務(wù)開(kāi)發(fā)。它結(jié)合了功能強(qiáng)大的軟件堆棧和代碼生成引擎,用以構(gòu)建在 C++,Java,Python,Ruby 等編程語(yǔ)言上,進(jìn)行無(wú)縫,高效的銜接。其最初由 Facebook 開(kāi)發(fā)用做系統(tǒng)內(nèi)各個(gè)語(yǔ)言之間的 RPC 通信,后 Facebook 貢獻(xiàn)給 Apache,目前成為 Apache 的頂級(jí)項(xiàng)目之一。
相關(guān)鏈接地址,如下所示:
?
2.6.2 Apache Zookeeper
Zookeeper 分布式服務(wù)框架是 Apache Hadoop 的一個(gè)子項(xiàng)目,它主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題,如:統(tǒng)一命名服務(wù),狀態(tài)同步服務(wù),集群管理,分布式應(yīng)用配置項(xiàng)的管理等。
相關(guān)鏈接地址,如下所示:
?
2.6.3 Apache Avro
Apache Avro 是 Hadoop 中的一個(gè)子項(xiàng)目,也是 Apache 中的一個(gè)獨(dú)立的項(xiàng)目,Avro 是一個(gè)基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件。在 Hadoop 的其它項(xiàng)目中,例如 HBase,Hive 的 Client 端與服務(wù)端的數(shù)據(jù)傳輸也采用了這個(gè)工具。Avro 是一個(gè)數(shù)據(jù)序列化的系統(tǒng),它可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲(chǔ)或傳輸?shù)母袷?。Avro 設(shè)計(jì)之初就用來(lái)支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲(chǔ)和交換。擁有一下特點(diǎn):
- 豐富的數(shù)據(jù)結(jié)構(gòu)類(lèi)型
- 快速可壓縮的二進(jìn)制數(shù)據(jù)形式,對(duì)數(shù)據(jù)二進(jìn)制序列化后可以節(jié)約數(shù)據(jù)存儲(chǔ)空間和網(wǎng)絡(luò)傳輸帶寬
- 存儲(chǔ)持久數(shù)據(jù)的文件容器
- 可以實(shí)現(xiàn)遠(yuǎn)程過(guò)程調(diào)用 RPC
- 簡(jiǎn)單的動(dòng)態(tài)語(yǔ)言結(jié)合功能
相關(guān)鏈接地址,如下所示:
另外,還有 Apache Curator,Twitter Elephant Bird,Linkedin Norbert 等工具,這里就不一一介紹了。
?
?
2.7 調(diào)度系統(tǒng)
2.7.1 Apache Oozie
在 Hadoop 中執(zhí)行的任務(wù)有時(shí)候需要把多個(gè) MR 作業(yè)連接到一起,這樣才能達(dá)到目的。在 Hadoop 生態(tài)圈中,Oozie 可以把多個(gè) MR 作業(yè)組合到一個(gè)邏輯工作單元中,從而完成更大型的任務(wù)。Oozie 是一種 Java Web 應(yīng)用程序,它運(yùn)行在 Java Servlet 容器中(即:Tomcat)中,并使用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)一下內(nèi)容:
- 工作流定義
- 當(dāng)前運(yùn)行的工作流實(shí)例,包括實(shí)例的狀態(tài)和變量
Oozie 工作流是放置在控制依賴(lài) DAG 中的一組動(dòng)作(如 Hadoop 的 MR 作業(yè),Pig 作業(yè)等),其中指定了動(dòng)作執(zhí)行的順序。
相關(guān)鏈接地址,如下所示:
?
2.7.2 Linkedin Azkaban
Hadoop 工作流管理。提供友好的 Web UI 界面進(jìn)行批處理作業(yè)調(diào)度(定時(shí)或及時(shí))。
相關(guān)鏈接地址,如下所示:
?
2.7.3?Apache Falcon
Apache Falcon 是一個(gè)面向 Hadoop 的,新的數(shù)據(jù)處理和管理平臺(tái),設(shè)計(jì)用于數(shù)據(jù)移動(dòng),數(shù)據(jù)管道協(xié)調(diào),生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使用終端用戶(hù)可以快速的將他們的數(shù)據(jù)以及相關(guān)的處理和管理任務(wù)上載到 Hadoop 集群。在?Apache Falcon 中,基礎(chǔ)設(shè)施端點(diǎn),數(shù)據(jù)集,處理規(guī)則均是聲明式的。這種聲明式配置顯式定義了實(shí)體之間的依賴(lài)關(guān)系。這也是該平臺(tái)的一個(gè)特點(diǎn),它本身只維護(hù)依賴(lài)關(guān)系,而并不做任何繁重的工作,所有的功能和工作流狀態(tài)管理需求都委托給工作流調(diào)度程序來(lái)完成。
相關(guān)鏈接地址,如下所示:
?
2.8 系統(tǒng)部署
2.8.1 Apache Ambari
用于創(chuàng)建,管理,監(jiān)控 Hadoop 集群的工具,可以很方便的安裝,調(diào)試 Hadoop 集群,支持的平臺(tái)組件也是越來(lái)越多,如 Spark,Storm 等計(jì)算模型,以及資源調(diào)度平臺(tái) YARN 等,都能通過(guò) Ambari 輕松部署管理。
相關(guān)鏈接地址,如下所示:
?
2.8.2 CDH
Cloudera 公司的產(chǎn)品,類(lèi)似于 Ambari 產(chǎn)品,用于創(chuàng)建,管理,監(jiān)控 Hadoop 集群。
相關(guān)鏈接地址,如下所示:
?
?
2.9 可視化
2.9.1 Apache Zeppelin
你可以制作出漂亮的數(shù)據(jù),使用 SQL,Scala 或者其它。它擁有以下特性:
- 數(shù)據(jù)收集
- 數(shù)據(jù)發(fā)掘
- 數(shù)據(jù)分析
- 數(shù)據(jù)可視化和集成
目前支持的中間件有:Spark,md,sh,Hive,Tajo,Flink,Cassandra,Phoenix,Kylin 等
相關(guān)鏈接地址,如下所示:
?
?
3.總結(jié)
Hadoop 生態(tài)圈是非常龐大的,上述列舉的只是其生態(tài)圈中常用的一部分,下圖給大家展示了本篇博客相關(guān)內(nèi)容的關(guān)聯(lián)圖,如下圖所示:
?
?
?
?
4.結(jié)束語(yǔ)
這篇博客就和大家分享到這里,如果大家在研究學(xué)習(xí)的過(guò)程當(dāng)中有什么問(wèn)題,可以加群進(jìn)行討論或發(fā)送郵件給我,我會(huì)盡我所能為您解答,與君共勉!
?
?
?
歡迎大家,加入我的微信公眾號(hào):大數(shù)據(jù)躺過(guò)的坑 ? ? 免費(fèi)給分享 ?同時(shí),大家可以關(guān)注我的個(gè)人博客:
???http://www.cnblogs.com/zlslch/?? 和 ?http://www.cnblogs.com/lchzls/?
?
人生苦短,我愿分享。本公眾號(hào)將秉持活到老學(xué)到老學(xué)習(xí)無(wú)休止的交流分享開(kāi)源精神,匯聚于互聯(lián)網(wǎng)和個(gè)人學(xué)習(xí)工作的精華干貨知識(shí),一切來(lái)于互聯(lián)網(wǎng),反饋回互聯(lián)網(wǎng)。
目前研究領(lǐng)域:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)分析。 語(yǔ)言涉及:Java、Scala、Python、Shell、Linux等 。同時(shí)還涉及平常所使用的手機(jī)、電腦和互聯(lián)網(wǎng)上的使用技巧、問(wèn)題和實(shí)用軟件。 只要你一直關(guān)注和呆在群里,每天必須有收獲
?
? ? ? ?以及對(duì)應(yīng)本平臺(tái)的QQ群:161156071(大數(shù)據(jù)躺過(guò)的坑)
?
?
?
?
?
?
?
?
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/zlslch/p/7610241.html
總結(jié)
以上是生活随笔為你收集整理的大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 浏览器自动有账号密码怎么取消 取消自动登
- 下一篇: python3 内置函数详解