大数据基本概念介绍
一、什么是大數(shù)據(jù)
專業(yè)咨詢公司IDC對(duì)大數(shù)據(jù)特征的定義: 4V
1、數(shù)據(jù)量(Volume): TB,PB級(jí)別以上。
2、多樣性,復(fù)雜性(Variety): 結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫),文件,視頻,音頻、圖像,地理位置
3、基于高度分析的新價(jià)值(Value): 價(jià)值密度比較低,比如1個(gè)小時(shí)的視頻,只有1分鐘是有價(jià)值的。
4、速度(Velocity): 處理速度,原來處理方式比較久如每天處理一次?,F(xiàn)在要求實(shí)時(shí)處理。
二、大數(shù)據(jù)帶來的技術(shù)變革
1、計(jì)算瓶頸(原來都是單機(jī)計(jì)算的,現(xiàn)在數(shù)據(jù)越來越大,如超過100G,單機(jī)處理不過來了)。
解決方法: 單機(jī)轉(zhuǎn)集群。
2、存儲(chǔ)瓶頸
解決方式:分布式存儲(chǔ),不同的塊存在不同的機(jī)器里,而且是多副本存儲(chǔ)。
3、數(shù)據(jù)庫瓶頸
原來存儲(chǔ)在關(guān)系型數(shù)據(jù)庫,如Oracle,MySQL等,即使它們有集群的方式,但是存儲(chǔ)還是有限的。
解決方式: 采用NoSQL數(shù)據(jù)庫,如Redis,HBASE來滿足大數(shù)據(jù)存儲(chǔ)的需求。
三、Hadoop概述
1、什么是Hadoop
一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。
Hadoop包括Distributed File System(HDFS) 分布式文件系統(tǒng),YARN,MapReduce。
官網(wǎng)地址:
Hadoop: hadoop.apache.org
Hive: hive.apache.org
Spark: spark.apache.org
HBase: hbase.spache.org
2、Hadoop包括的模塊
Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Hadoop Ozone: An object store for Hadoop
3、狹義Hadoop和廣義Hadoop
狹義的Hadoop: 是一個(gè)適合大數(shù)據(jù)分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)和資源調(diào)度(YARN)的平臺(tái)。
廣義的Hadoop: 指的是Hadoop生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)是一個(gè)很龐大的概念,hadoop是其中最重要最基礎(chǔ)的一部分;生態(tài)系統(tǒng)中的每一個(gè)子系統(tǒng)只解決某一個(gè)特定的問題域(甚至可能很窄),不搞統(tǒng)一型的一個(gè)全能系統(tǒng),而是小而精的多個(gè)小系統(tǒng)
4、Hadoop生態(tài)圈(廣義Hadoop)
圖片來自官網(wǎng):https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
為什么很多公司選擇Hadoop作為大數(shù)據(jù)平臺(tái)的解決方案?
1) 源碼開源
2) 社區(qū)活躍、參與者很多,如Spark
3) 涉及到分布式存儲(chǔ)和計(jì)算的方方面面:
Flume進(jìn)行數(shù)據(jù)采集
Spark/MR/Hive等進(jìn)行數(shù)據(jù)處理
HDFS/HBase進(jìn)行數(shù)據(jù)存儲(chǔ)
4) 已得到企業(yè)界認(rèn)證
三、分布式文件系統(tǒng)HDFS
1、什么是HDFS
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS
源自于Google的GFS論文
發(fā)表與2003年,HDFS是GFS的克隆版
2、HDFS的設(shè)計(jì)目標(biāo)
1) 非常巨大的分布式文件系統(tǒng)
2) 運(yùn)行在普通廉價(jià)的硬件上
3) 易擴(kuò)展、為用戶提供性能不錯(cuò)的文件存儲(chǔ)服務(wù)。
3、HSDS架構(gòu)
圖片來自官網(wǎng):https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
1個(gè)Master(NameNode,簡(jiǎn)稱NN),多個(gè)Slave(DataNode,簡(jiǎn)稱DN)
1個(gè)文件會(huì)被拆分成多個(gè)Block(塊)
blocksize: 128M
例如130M文件會(huì)被拆分成2個(gè)Block,一個(gè)128M和2M
NN職責(zé):
1) 負(fù)責(zé)客戶端請(qǐng)求的響應(yīng)
2) 負(fù)責(zé)元數(shù)據(jù)(文件的名稱、副本系數(shù)、Block存放的DN)的管理
DN職責(zé)
1) 存儲(chǔ)用戶的文件對(duì)應(yīng)的數(shù)據(jù)塊(Block)
2) 要定期向NN發(fā)送心跳信息,匯報(bào)本身及其所有的block信息,健康狀況
建議: NN和DN部署在不同的節(jié)點(diǎn)上
Client:
就是你的操作,比如HDFS的Shell文件或者Java API的一些文件
4、HDFS副本機(jī)制
文件名 ,副本數(shù),塊ID
如文件名part-0, r:2 副本數(shù)為2, 塊號(hào)為1號(hào)和3號(hào)
文件名part-1, r:3 副本數(shù)為3, 塊號(hào)為2號(hào),4號(hào)和5號(hào)
數(shù)據(jù)有多個(gè)副本,目的是為了容錯(cuò)。
作者:Work Hard Work Smart
出處:http://www.cnblogs.com/linlf03/
歡迎任何形式的轉(zhuǎn)載,未經(jīng)作者同意,請(qǐng)保留此段聲明!
總結(jié)
- 上一篇: 虹软人脸识别sdk使用-android(
- 下一篇: 「达人分享」四分体出现在什么时期