Apache Ignite与Apache Hive的个人理解与总结
首先,貼一下官網(wǎng)鏈接辟邪:官網(wǎng)鏈接
下面,就看我強(qiáng)行總結(jié)吧,如果理解有誤,請(qǐng)大佬及時(shí)指正,感激不盡!
Apache Ignite是啥玩意,在上一篇已經(jīng)講過了,可能還比較易于理解:理解Ignite傳送門
Apache Hive是啥玩意?說來挺復(fù)雜的,簡(jiǎn)而言之,大概就是建立在Hadoop之上的開源數(shù)據(jù)倉(cāng)庫(kù)框架或工具。為啥會(huì)有這框架呢,就比如說,你去往記幾的mysql或者oracle數(shù)據(jù)庫(kù)中使用SQL語(yǔ)句或腳本一次插幾十GB的記錄啊,甚至TB級(jí)別的啊,看看你電腦或者服務(wù)器掛不掛,不掛的話…(臥槽,真的不會(huì)掛嗎?)就算…真不會(huì)掛,那也會(huì)超久超久了啊。這個(gè)框架就是基于Hadoop批處理系統(tǒng)的對(duì)海量數(shù)據(jù)進(jìn)行處理的玩意兒。而且不需要寫MapReduce了,寫SQL不需要寫Java了,對(duì)大多數(shù)人來說都是一個(gè)字:爽。
Hadoop這個(gè)小象呢,簡(jiǎn)單來說,就是一個(gè)管理節(jié)點(diǎn),一堆存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn),一個(gè)管理節(jié)點(diǎn)的管家和一個(gè)處理命令的流水線,再加MapReduce和YARN
至于詳細(xì)的Spark,Hadoop,Hive這些東東具體都是啥呢,請(qǐng)看:傳送門
好了,進(jìn)入正題:
1. Ignite提供了與spark和Hadoop的無(wú)縫集成。ignite-Hadoop的集成使用 ignite File System 作為主要緩存層來存儲(chǔ)HDFS數(shù)據(jù)。而 ignite-spark 呢,使用spark RDD實(shí)現(xiàn)了跨越多個(gè)Spark共享內(nèi)存中的狀態(tài)。
2. Apache Ignite提供了Spark RDD抽象的實(shí)現(xiàn),原生的Spark RDD和IgniteRDD主要的不同是,ignite RDD 使得應(yīng)用程序和spark可以共享內(nèi)存視圖的數(shù)據(jù),而原生的spark RDD的數(shù)據(jù)不能被別的任務(wù)或其他spark共享。就相當(dāng)于是在原來的spark application中加了一個(gè)基于內(nèi)存分享的層次。
3. 分布式的內(nèi)存中的文件系統(tǒng),叫做IGFS(ignite file system)。IGFS提供了與Hadoop HDFS類似的功能,不過僅僅局限于內(nèi)存上。IGFS除了自己的API之外,還實(shí)現(xiàn)了Hadoop FileSystem API,并且可以透明地插入到Hadoop或spark程序部署中。
4. 減少內(nèi)存映射。ignite的基于內(nèi)存的MapReduce可以有效地并行處理存在任何Hadoop文件系統(tǒng)中的數(shù)據(jù),消除了傳統(tǒng)的Hadoop體系結(jié)構(gòu)中的作業(yè)追蹤和任務(wù)追蹤的開銷,同時(shí)提供低延遲,HPC(高性能計(jì)算機(jī)群)分布式處理。
5. 提供了Hadoop的加速器,提供了一組允許內(nèi)存Hadoop作業(yè)執(zhí)行和文件系統(tǒng)操作的組件。可以與ignite file system和in-memory MapReduce結(jié)合使用,并且可以隨意插入任何Hadoop發(fā)行版。
總之,一句話,ignite不僅僅是一個(gè)十分NB的數(shù)據(jù)庫(kù),而且還提供了支持spark和Hadoop的優(yōu)化,更加支持分布式的應(yīng)用。
正如官網(wǎng)所說:Ignite是很強(qiáng)大的整體解決方案和開發(fā)平臺(tái)。
總結(jié)
以上是生活随笔為你收集整理的Apache Ignite与Apache Hive的个人理解与总结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ignite在MacOS或Linux上的
- 下一篇: 可能大家都能跑通的ignite的Hell