當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

大数据基本概念介绍

發(fā)布時(shí)間：2024/1/4 综合教程 31 生活家

生活随笔收集整理的這篇文章主要介紹了大数据基本概念介绍小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、什么是大數(shù)據(jù)

專業(yè)咨詢公司IDC對(duì)大數(shù)據(jù)特征的定義： 4V

1、數(shù)據(jù)量（Volume）： TB，PB級(jí)別以上。

2、多樣性，復(fù)雜性（Variety）: 結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫），文件，視頻，音頻、圖像，地理位置

3、基于高度分析的新價(jià)值（Value）：價(jià)值密度比較低，比如1個(gè)小時(shí)的視頻，只有1分鐘是有價(jià)值的。

4、速度（Velocity）：處理速度，原來處理方式比較久如每天處理一次?，F(xiàn)在要求實(shí)時(shí)處理。

二、大數(shù)據(jù)帶來的技術(shù)變革

1、計(jì)算瓶頸(原來都是單機(jī)計(jì)算的，現(xiàn)在數(shù)據(jù)越來越大，如超過100G，單機(jī)處理不過來了)。

解決方法：單機(jī)轉(zhuǎn)集群。

2、存儲(chǔ)瓶頸

解決方式：分布式存儲(chǔ)，不同的塊存在不同的機(jī)器里，而且是多副本存儲(chǔ)。

3、數(shù)據(jù)庫瓶頸

原來存儲(chǔ)在關(guān)系型數(shù)據(jù)庫，如Oracle，MySQL等，即使它們有集群的方式，但是存儲(chǔ)還是有限的。

解決方式：采用NoSQL數(shù)據(jù)庫，如Redis，HBASE來滿足大數(shù)據(jù)存儲(chǔ)的需求。

三、Hadoop概述

1、什么是Hadoop

一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)，由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。

Hadoop包括Distributed File System(HDFS) 分布式文件系統(tǒng)，YARN，MapReduce。

官網(wǎng)地址：

Hadoop： hadoop.apache.org

Hive: hive.apache.org

Spark: spark.apache.org

HBase： hbase.spache.org

2、Hadoop包括的模塊

Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Hadoop Ozone: An object store for Hadoop

3、狹義Hadoop和廣義Hadoop

狹義的Hadoop：是一個(gè)適合大數(shù)據(jù)分布式存儲(chǔ)(HDFS)、分布式計(jì)算（MapReduce）和資源調(diào)度（YARN）的平臺(tái)。

廣義的Hadoop：指的是Hadoop生態(tài)系統(tǒng)，Hadoop生態(tài)系統(tǒng)是一個(gè)很龐大的概念，hadoop是其中最重要最基礎(chǔ)的一部分；生態(tài)系統(tǒng)中的每一個(gè)子系統(tǒng)只解決某一個(gè)特定的問題域（甚至可能很窄），不搞統(tǒng)一型的一個(gè)全能系統(tǒng)，而是小而精的多個(gè)小系統(tǒng)

4、Hadoop生態(tài)圈(廣義Hadoop)

圖片來自官網(wǎng)：https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

為什么很多公司選擇Hadoop作為大數(shù)據(jù)平臺(tái)的解決方案？

1) 源碼開源

2) 社區(qū)活躍、參與者很多，如Spark

3) 涉及到分布式存儲(chǔ)和計(jì)算的方方面面：

Flume進(jìn)行數(shù)據(jù)采集

Spark/MR/Hive等進(jìn)行數(shù)據(jù)處理

　　HDFS/HBase進(jìn)行數(shù)據(jù)存儲(chǔ)

4) 已得到企業(yè)界認(rèn)證

三、分布式文件系統(tǒng)HDFS

1、什么是HDFS

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），簡(jiǎn)稱HDFS

源自于Google的GFS論文

發(fā)表與2003年，HDFS是GFS的克隆版

2、HDFS的設(shè)計(jì)目標(biāo)

1) 非常巨大的分布式文件系統(tǒng)

2) 運(yùn)行在普通廉價(jià)的硬件上

3) 易擴(kuò)展、為用戶提供性能不錯(cuò)的文件存儲(chǔ)服務(wù)。

3、HSDS架構(gòu)

圖片來自官網(wǎng)：https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

1個(gè)Master(NameNode,簡(jiǎn)稱NN)，多個(gè)Slave（DataNode，簡(jiǎn)稱DN）

1個(gè)文件會(huì)被拆分成多個(gè)Block（塊）

blocksize： 128M

例如130M文件會(huì)被拆分成2個(gè)Block，一個(gè)128M和2M

NN職責(zé)：

1) 負(fù)責(zé)客戶端請(qǐng)求的響應(yīng)

2) 負(fù)責(zé)元數(shù)據(jù)（文件的名稱、副本系數(shù)、Block存放的DN）的管理

DN職責(zé)

1) 存儲(chǔ)用戶的文件對(duì)應(yīng)的數(shù)據(jù)塊(Block)

2) 要定期向NN發(fā)送心跳信息，匯報(bào)本身及其所有的block信息，健康狀況

建議： NN和DN部署在不同的節(jié)點(diǎn)上

Client：

就是你的操作，比如HDFS的Shell文件或者Java API的一些文件

4、HDFS副本機(jī)制

文件名，副本數(shù)，塊ID

如文件名part-0， r:2 副本數(shù)為2，塊號(hào)為1號(hào)和3號(hào)

文件名part-1， r:3 副本數(shù)為3，塊號(hào)為2號(hào)，4號(hào)和5號(hào)

數(shù)據(jù)有多個(gè)副本，目的是為了容錯(cuò)。

作者：Work Hard Work Smart
出處：http://www.cnblogs.com/linlf03/
歡迎任何形式的轉(zhuǎn)載，未經(jīng)作者同意，請(qǐng)保留此段聲明！

總結(jié)

以上是生活随笔為你收集整理的大数据基本概念介绍的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：虹软人脸识别sdk使用-android（
下一篇：「达人分享」四分体出现在什么时期

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

综合教程

大数据基本概念介绍

總結(jié)