當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop学习笔记系列文章导航

發(fā)布時(shí)間：2025/3/21 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop学习笔记系列文章导航小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、為何要學(xué)習(xí)Hadoop?

　　這是一個(gè)信息爆炸的時(shí)代。經(jīng)過數(shù)十年的積累，很多企業(yè)都聚集了大量的數(shù)據(jù)。這些數(shù)據(jù)也是企業(yè)的核心財(cái)富之一，怎樣從累積的數(shù)據(jù)里尋找價(jià)值，變廢為寶煉數(shù)成金成為當(dāng)務(wù)之急。但數(shù)據(jù)增長的速度往往比cpu和內(nèi)存性能增長的速度還要快得多。要處理海量數(shù)據(jù)，如果求助于昂貴的專用主機(jī)甚至超級計(jì)算機(jī)，成本無疑很高，有時(shí)即使是保存數(shù)據(jù)，也需要面對高成本的問題，因?yàn)榫哂泻Ａ繑?shù)據(jù)容量的存儲設(shè)備，價(jià)格往往也是天文數(shù)字。成本和IT能力成為了海量數(shù)據(jù)分析的主要瓶頸。

　　Hadoop這個(gè)開源產(chǎn)品的出現(xiàn)，打破了對數(shù)據(jù)力量的壓制。Hadoop源于Nutch這個(gè)小型的搜索引擎項(xiàng)目。而Nutch則出自于著名的開源搜索引擎解決方案Lucene，而Lucene則來源于對Google的學(xué)習(xí)模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版，Map-Reduce的思想來源于Goolge對Page rank的計(jì)算方法，HBase模仿的是Big Table，Zookeeper則學(xué)習(xí)了Chubby。Google巨人的力量盡管由于商業(yè)的原因被層層封鎖，但在Hadoop身上得到了完美的重生和發(fā)展。

　　從2006年Apache基金會接納Hadoop項(xiàng)目以來。Hadoop已經(jīng)成為云計(jì)算軟件的一個(gè)事實(shí)標(biāo)準(zhǔn)，以及開源云計(jì)算解決方案的幾乎唯一選擇。對于想用低成本（包括軟硬件）實(shí)現(xiàn)云計(jì)算平臺或海量數(shù)據(jù)分析平臺的用戶，Hadoop集群是首選的對象。由于Hadoop在各方面都打破了傳統(tǒng)關(guān)系型數(shù)據(jù)庫的思路和模式，對于新接觸Hadoop平臺的人，往往會覺得困惑和難以理解，進(jìn)而轉(zhuǎn)化為畏懼。

　　因此，為了趕上大數(shù)據(jù)時(shí)代的發(fā)展，迎接云計(jì)算的思維，盡管我做的是.NET的應(yīng)用開發(fā)工作，但我仍然選擇業(yè)余時(shí)間學(xué)習(xí)Hadoop。我會從Hadoop1.x版本開始學(xué)習(xí)經(jīng)典的HDFS與MapReduce，然后了解Hadoop2.x版本與老版本的差異，熟悉一些常見的Hadoop應(yīng)用場景，并學(xué)著實(shí)踐一個(gè)最經(jīng)典的項(xiàng)目（網(wǎng)站日志數(shù)據(jù)分析案例）來完成我給自己規(guī)劃的學(xué)習(xí)任務(wù)。

二、Hadoop筆記系列索引

2.1 基礎(chǔ)環(huán)境部分：

　　（1）基礎(chǔ)介紹與環(huán)境搭建

　　（6）Hadoop Eclipse插件的使用

　　（13）分布式集群中節(jié)點(diǎn)的動態(tài)添加與下架

2.2 HDFS部分：

　　（2）不怕故障的海量存儲之HDFS基礎(chǔ)入門

　　（3）Hadoop RPC機(jī)制的使用

2.3 MapReduce部分：

　　（4）初識MapReduce

　　（5）自定義類型處理手機(jī)上網(wǎng)日志

　　（7）計(jì)數(shù)器與自定義計(jì)數(shù)器

　　（8）Combiner與自定義Combiner

　　（9）Partioner與自定義Partitioner

　　（10）Reduce階段中的Shuffle過程

　　（11）MapReduce中的排序和分組

　　（12）MapReduce中的常見算法

2.4 ZooKeeper部分：

　　（14）ZooKeeper環(huán)境搭建

2.5 HBase部分：

　　（15）HBase框架學(xué)習(xí)之基礎(chǔ)知識篇

　　（15）HBase框架學(xué)習(xí)之基礎(chǔ)實(shí)踐篇

2.6 Pig部分：

　　（16）Pig框架學(xué)習(xí)

2.7 Hive部分：

　　（17）Hive框架學(xué)習(xí)

2.8 Sqoop部分：

　　（18）Sqoop框架學(xué)習(xí)

2.9 Flume部分：

　　（19）Flume框架學(xué)習(xí)

2.10 項(xiàng)目實(shí)戰(zhàn)部分：

　　（20）網(wǎng)站日志分析項(xiàng)目（一）項(xiàng)目介紹

　　（20）網(wǎng)站日志分析項(xiàng)目（二）數(shù)據(jù)清洗

　　（20）網(wǎng)站日志分析項(xiàng)目（三）統(tǒng)計(jì)分析

2.11 Hadoop2部分：

　　（21）Hadoop2的改進(jìn)內(nèi)容簡介

作者：周旭龍

出處：http://www.cnblogs.com/edisonchou/

總結(jié)

以上是生活随笔為你收集整理的Hadoop学习笔记系列文章导航的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Hadoop学习笔记—4.初识MapRe
下一篇： .NET全栈开发工程师学习路径