001_扎马步_初识hadoop
練功就要從扎馬步開始!就算得到九陰真經基礎練不好,那也是竹籃打水一場空,所以我們從基礎聊起……
大綱:
介紹什么是云計算
介紹hadoop的由來
介紹hadoop的生態體系
1.什么是云計算
比較官方的描述:
云計算(英語:Cloud Computing),是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需提供給計算機和其他設備。典型的云計算提供商往往提供通用的網絡業務應用,可以通過瀏覽器等軟件或者其他Web服務來訪問,而軟件和數據都存儲在服務器上。云計算服務通常提供通用的通過瀏覽器訪問的在線商業應用,軟件和數據可存儲在數據中心。 狹義云計算指IT基礎設施的交付和使用模式,指通過網絡以按需、易擴展的方式獲得所需資源;廣義云計算指服務的交付和使用模式,指通過網絡以按需、易擴展的方式獲得所需服務。這種服務可以是IT和軟件、互聯網相關,也可是其他服務。它意味著計算能力也可作為一種商品通過互聯網進行流通。
摘自互動百科"http://www.baike.com/wiki/云計算"
我的理解:
假設有一個1T的文件需要處理,找一臺極度牛逼電腦肯定是干不了的。但是找一千臺電腦,每個電腦分1G,這樣不就輕松解決了嘛,這就是云計算。
云計算就是通過N太服務器集群,處理海量數據。
大家應該都知道阿里云"http://www.aliyun.com/"。這就是提供云計算服務的典型代表。在阿里云系統中,阿里公司的機房含有N多臺服務器,我們在網站上可以購買他們的服務器。
在阿里云背后其實就是大規模的集群,并且可以管理,設置各種參數(CPU,內存,帶寬)
2.hadoop的由來
hadoop來源于Google公司的三大論文:Bigtable、GFS(Google File System)、MapReduce。我們確實要感謝Google公司對計算機領域做出的貢獻。Google公司不公布源碼,但是他把思想傳遞給我們。
在hadoop的體系中的三大法寶:
| hadoop | |
| Hbase | Bigtable |
| HDFS(Hadoop File System) | GFS(Google File System) |
| MapReduce | MapReduce |
在附件中我提供了Google三大論文的中文版。有興趣的盆友可以看看
3.hadoop的生態系統
?說明:
HDFS: Hadoop分布式文件系統(Distributed File System) - HDFS (Hadoop Distributed File System)
MapReduce:并行計算框架,0.20前使用 org.apache.hadoop.mapred 舊接口,0.20版本開始引入org.apache.hadoop.mapreduce的新API
HBase: 類似Google BigTable的分布式NoSQL列數據庫。(HBase和Avro已經于2010年5月成為頂級 Apache 項目)
Hive:數據倉庫工具,由Facebook貢獻。
Zookeeper:分布式鎖設施,提供類似Google Chubby的功能,一個分布式的、高可用性的協調服務。提供的功能包括:配置維護、名字服務、分布式同步、組服務等,用于分布式系統的可靠協調系統,由Facebook貢獻。
Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。
Pig:大數據分析平臺,為用戶提供多種接口。
Sqoop:于在HADOOP與傳統的數據庫間進行數據的傳遞。
生態體系現在只做一個了解,知道hadoop是什么就行。后面博客會慢慢講解。
- Google_云計算三大論文中文版.pdf (2.4 MB)
- 下載次數: 70
- 查看圖片附件
總結
以上是生活随笔為你收集整理的001_扎马步_初识hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Leetcode 317. Shorte
- 下一篇: php 前后端分离之rsa与des加密之