Hadoop学习笔记系列文章导航
一、為何要學(xué)習(xí)Hadoop?
這是一個(gè)信息爆炸的時(shí)代。經(jīng)過數(shù)十年的積累,很多企業(yè)都聚集了大量的數(shù)據(jù)。這些數(shù)據(jù)也是企業(yè)的核心財(cái)富之一,怎樣從累積的數(shù)據(jù)里尋找價(jià)值,變廢為寶煉數(shù)成金成為當(dāng)務(wù)之急。但數(shù)據(jù)增長的速度往往比cpu和內(nèi)存性能增長的速度還要快得多。要處理海量數(shù)據(jù),如果求助于昂貴的專用主機(jī)甚至超級計(jì)算機(jī),成本無疑很高,有時(shí)即使是保存數(shù)據(jù),也需要面對高成本的問題,因?yàn)榫哂泻A繑?shù)據(jù)容量的存儲設(shè)備,價(jià)格往往也是天文數(shù)字。成本和IT能力成為了海量數(shù)據(jù)分析的主要瓶頸。
Hadoop這個(gè)開源產(chǎn)品的出現(xiàn),打破了對數(shù)據(jù)力量的壓制。Hadoop源于Nutch這個(gè)小型的搜索引擎項(xiàng)目。而Nutch則出自于著名的開源搜索引擎解決方案Lucene,而Lucene則來源于對Google的學(xué)習(xí)模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想來源于Goolge對Page rank的計(jì)算方法,HBase模仿的是Big Table,Zookeeper則學(xué)習(xí)了Chubby。Google巨人的力量盡管由于商業(yè)的原因被層層封鎖,但在Hadoop身上得到了完美的重生和發(fā)展。
從2006年Apache基金會接納Hadoop項(xiàng)目以來。Hadoop已經(jīng)成為云計(jì)算軟件的一個(gè)事實(shí)標(biāo)準(zhǔn),以及開源云計(jì)算解決方案的幾乎唯一選擇。對于想用低成本(包括軟硬件)實(shí)現(xiàn)云計(jì)算平臺或海量數(shù)據(jù)分析平臺的用戶,Hadoop集群是首選的對象。由于Hadoop在各方面都打破了傳統(tǒng)關(guān)系型數(shù)據(jù)庫的思路和模式,對于新接觸Hadoop平臺的人,往往會覺得困惑和難以理解,進(jìn)而轉(zhuǎn)化為畏懼。
因此,為了趕上大數(shù)據(jù)時(shí)代的發(fā)展,迎接云計(jì)算的思維,盡管我做的是.NET的應(yīng)用開發(fā)工作,但我仍然選擇業(yè)余時(shí)間學(xué)習(xí)Hadoop。我會從Hadoop1.x版本開始學(xué)習(xí)經(jīng)典的HDFS與MapReduce,然后了解Hadoop2.x版本與老版本的差異,熟悉一些常見的Hadoop應(yīng)用場景,并學(xué)著實(shí)踐一個(gè)最經(jīng)典的項(xiàng)目(網(wǎng)站日志數(shù)據(jù)分析案例)來完成我給自己規(guī)劃的學(xué)習(xí)任務(wù)。
二、Hadoop筆記系列索引
2.1 基礎(chǔ)環(huán)境部分:
(1)基礎(chǔ)介紹與環(huán)境搭建
(6)Hadoop Eclipse插件的使用
(13)分布式集群中節(jié)點(diǎn)的動態(tài)添加與下架
2.2 HDFS部分:
(2)不怕故障的海量存儲之HDFS基礎(chǔ)入門
(3)Hadoop RPC機(jī)制的使用
2.3 MapReduce部分:
(4)初識MapReduce
(5)自定義類型處理手機(jī)上網(wǎng)日志
(7)計(jì)數(shù)器與自定義計(jì)數(shù)器
(8)Combiner與自定義Combiner
(9)Partioner與自定義Partitioner
(10)Reduce階段中的Shuffle過程
(11)MapReduce中的排序和分組
(12)MapReduce中的常見算法
2.4 ZooKeeper部分:
(14)ZooKeeper環(huán)境搭建
2.5 HBase部分:
(15)HBase框架學(xué)習(xí)之基礎(chǔ)知識篇
(15)HBase框架學(xué)習(xí)之基礎(chǔ)實(shí)踐篇
2.6 Pig部分:
(16)Pig框架學(xué)習(xí)
2.7 Hive部分:
(17)Hive框架學(xué)習(xí)
2.8 Sqoop部分:
(18)Sqoop框架學(xué)習(xí)
2.9 Flume部分:
(19)Flume框架學(xué)習(xí)
2.10 項(xiàng)目實(shí)戰(zhàn)部分:
(20)網(wǎng)站日志分析項(xiàng)目(一)項(xiàng)目介紹
(20)網(wǎng)站日志分析項(xiàng)目(二)數(shù)據(jù)清洗
(20)網(wǎng)站日志分析項(xiàng)目(三)統(tǒng)計(jì)分析
2.11 Hadoop2部分:
(21)Hadoop2的改進(jìn)內(nèi)容簡介
?
作者:周旭龍
出處:http://www.cnblogs.com/edisonchou/
總結(jié)
以上是生活随笔為你收集整理的Hadoop学习笔记系列文章导航的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Hadoop学习笔记—4.初识MapRe
- 下一篇: .NET全栈开发工程师学习路径
