大数据初探——Hadoop历史
生活随笔
收集整理的這篇文章主要介紹了
大数据初探——Hadoop历史
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
?
Hadoop是一個(gè)開源的分布式框架,是Apache下的一個(gè)開源項(xiàng)目。Hadoop運(yùn)行可以在成千上萬個(gè)普通機(jī)器節(jié)點(diǎn)組成的集群上,通過分布式的計(jì)算模型和存儲(chǔ)模型來處理大數(shù)據(jù)集。Hadoop具有高容錯(cuò)性、工作在普通的機(jī)器節(jié)點(diǎn)上擴(kuò)展性強(qiáng)等眾多的優(yōu)點(diǎn),是企業(yè)選擇處理大數(shù)據(jù)集工具的不二“人”選。
這個(gè)框架是另一個(gè)大項(xiàng)目的一部分,有數(shù)據(jù)庫管理專家Mike Cafarella與開源技術(shù)的支持者DougCutting所構(gòu)建。兩人創(chuàng)建了一個(gè)名叫Nutch的網(wǎng)絡(luò)爬蟲與分析系統(tǒng),該系統(tǒng)使用集群運(yùn)算同時(shí)執(zhí)行多項(xiàng)任務(wù)。之后Nutch演化成兩個(gè)系統(tǒng),其中之一就是Hadoop分布式管理系統(tǒng)。
Hadoop核心組成部分
- Hadoop Common:包括函數(shù)庫與工具功能,對(duì)Hadoop的其他模塊提供支持。
- Hadoop分布式文件系統(tǒng)(HDFS):基于Java,具有高擴(kuò)展性,允許在未經(jīng)預(yù)先安排的多臺(tái)計(jì)算機(jī)上存儲(chǔ)數(shù)據(jù)——本質(zhì)上是打造一個(gè)類似單文件系統(tǒng)運(yùn)作的節(jié)點(diǎn)社區(qū)。
- MapReduce:Hadoop的一個(gè)處理大數(shù)據(jù)集的分布式計(jì)算框架,可處理結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)集,具有可靠性與高容錯(cuò)性。
- Yarn(另一種資源協(xié)調(diào)方式):是一種資源管理框架,用來處理多個(gè)分布式架構(gòu)發(fā)送的資源請(qǐng)求調(diào)度。
常用數(shù)據(jù)存取部分
- pig:專為數(shù)據(jù)分析設(shè)計(jì)的編程語言,無需花費(fèi)大量時(shí)間構(gòu)建映射和化簡(jiǎn)操作,即可處理任何類型的數(shù)據(jù)。
- Hive:類似SQL的查詢語言——HQL,將sql語句編譯到MapReduce中,再跨集群分發(fā)出去。
- Flume:從應(yīng)用中收集大量數(shù)據(jù),并將它們轉(zhuǎn)入HDFS文件系統(tǒng)中。
- Spark:開源集群運(yùn)算系統(tǒng),在某些情況下進(jìn)行數(shù)據(jù)分析時(shí)比MapReduce塊100倍。
- Sqoop:數(shù)據(jù)傳輸工具,可以提取、加載并轉(zhuǎn)換結(jié)構(gòu)化數(shù)據(jù)。
- Hbase:NoSQL數(shù)據(jù)庫一種,可在HDFS上運(yùn)行。
Hadoop生態(tài)圈架構(gòu)圖
總結(jié)
以上是生活随笔為你收集整理的大数据初探——Hadoop历史的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JSONArray.fromObject
- 下一篇: 上下文环境