《大数据技术原理与应用》第一章-大数据概述
大數(shù)據(jù)概述
- 1.1 大數(shù)據(jù)時代
 - 00 簡要介紹
 - 01 時代背景的支撐
 
- 1.2 大數(shù)據(jù)的概念和影響
 - 00 大數(shù)據(jù)的 `4V ` 特性?
 - 01 大數(shù)據(jù)的影響
 
- 1.3 大數(shù)據(jù)的應(yīng)用
 - 00 影視劇的投拍
 - 01 谷歌預(yù)測流感
 - 03 新冠疫情地區(qū)分布圖
 
- 1.4 大數(shù)據(jù)的關(guān)鍵技術(shù)
 - 00 大數(shù)據(jù)技術(shù)的層次
 - 02 大數(shù)據(jù)計算模式?
 
- 1.5 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系
 - 00 云計算
 - 01 物聯(lián)網(wǎng)
 
- 1.6 小結(jié)
 
1.1 大數(shù)據(jù)時代
00 簡要介紹
大數(shù)據(jù)真正被大家所熟知的時候也就是在2010年左右,而大數(shù)據(jù)的大背景是第三次信息化浪潮,第三次信息化浪潮就是以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)三種新興技術(shù)為代表的人類信息化歷史上的第三次浪潮,在這之前,還有兩次信息化浪潮,具體如下:
| 第一次浪潮 | 1980年前后 | 個人計算機(jī) | 信息處理 | Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等 | 
| 第二次浪潮 | 1995年前后 | 互聯(lián)網(wǎng) | 信息傳輸 | 雅虎、谷歌、阿里巴巴、百度、騰訊等 | 
| 第三次浪潮 | 2010年前后 | 物聯(lián)網(wǎng)、云計算和大數(shù)據(jù) | 信息爆炸 | 將涌現(xiàn)出一批新的市場標(biāo)桿企業(yè) | 
01 時代背景的支撐
大數(shù)據(jù)時代的到來是必然要有一些相關(guān)的支撐,首要的就是技術(shù)支撐,主要分為三點:
 ① 存儲 :存儲設(shè)備容量不斷增加
② 計算 :CPU 處理能力大幅提升
③ 網(wǎng)絡(luò) :網(wǎng)絡(luò)帶寬不斷增加
其次是數(shù)據(jù)產(chǎn)生方式的變革:
 ① 第一階段(上世紀(jì)七八十年代):運營式系統(tǒng)階段
 例如,超市購物時在數(shù)據(jù)庫系統(tǒng)中一條一條的生成購物信息
② 第二階段(2002年附近):用戶原創(chuàng)內(nèi)容階段
 例如,博客、微博的出現(xiàn),大眾每個人都是自媒體,每個人都可以在網(wǎng)絡(luò)上發(fā)布數(shù)據(jù)
③ 第三階段:感知式系統(tǒng)階段
 這一階段是伴隨著物聯(lián)網(wǎng)的普及開始的,物聯(lián)網(wǎng)底層是感知層,如攝像頭、傳感器等,這些設(shè)備無時無刻不在感知外界信息,可以說物聯(lián)網(wǎng)的產(chǎn)生才真正導(dǎo)致了大數(shù)據(jù)的到來
由此可以簡單的概括一下大數(shù)據(jù)的發(fā)展歷程:
| 上世紀(jì)90年代至上世紀(jì)末期 | 萌芽期 | 
| 本世紀(jì)前十年 | 成熟期 | 
| 2010年以后 | 大規(guī)模應(yīng)用期 | 
1.2 大數(shù)據(jù)的概念和影響
00 大數(shù)據(jù)的 4V 特性?
① 數(shù)據(jù)量大(Volume 大量化)
- 大數(shù)據(jù)的摩爾定律 
- 人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量,其數(shù)據(jù)產(chǎn)生的非常塊
 
 
② 數(shù)據(jù)種類多(Variety 多樣化)
- 大數(shù)據(jù)的數(shù)據(jù)類型繁多 
- 大數(shù)據(jù)由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成,其中結(jié)構(gòu)化數(shù)據(jù)占10%左右,非結(jié)構(gòu)化數(shù)據(jù)占90%左右 
- 結(jié)構(gòu)化就是存儲在關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)
 - 非結(jié)構(gòu)化就是圖形、圖像之類的數(shù)據(jù)
 
 
 - 大數(shù)據(jù)由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成,其中結(jié)構(gòu)化數(shù)據(jù)占10%左右,非結(jié)構(gòu)化數(shù)據(jù)占90%左右 
 
③ 數(shù)據(jù)產(chǎn)生速度快(Velocity 快速化)
- 從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少 
- 不少企業(yè)級應(yīng)用都需要遵守秒級決策定律
 
 
④ Value 價值密度低
- 數(shù)據(jù)量大,價值密度低,商業(yè)價值高 
- 舉個例子:攝像頭每時每刻都在產(chǎn)生視頻數(shù)據(jù),但這其中真正被我們用到的數(shù)據(jù)很少,如果一整年都沒出事,這些一整年的視頻數(shù)據(jù)就沒有任何作用,只有出事的那一刻,我們才會用到出事的那一刻的視頻數(shù)據(jù),這就是數(shù)據(jù)的價值密度低
 
 
01 大數(shù)據(jù)的影響
① 科學(xué)研究的范式變化
- 第一種范式:實驗 
- 如:伽利略比薩斜塔實驗等
 
 - 第二種范式:理論 
- 如:幾何定論、牛頓三大定律等
 
 - 第三種范式:計算 
- 如:
 
 - 第四種范式:數(shù)據(jù) (新增) 
- 以數(shù)據(jù)為驅(qū)動 
- 我們不知道問題是什么,問題在哪,完全是以數(shù)據(jù)為驅(qū)動,通過大數(shù)據(jù)分析發(fā)現(xiàn)問題、解決問題
 
 
 - 以數(shù)據(jù)為驅(qū)動 
 
② 思維方式的變化?
- 全樣而非抽樣
 
在之前,數(shù)據(jù)太多,無法保存和分析,統(tǒng)計學(xué)采用抽樣,而現(xiàn)在,我們可以對所有數(shù)據(jù)進(jìn)行分析
- 效率而非精確
 
在之前,抽樣分析要求的是精確而不是效率,這是因為抽樣分析只是抽取部分?jǐn)?shù)據(jù),而不是所有數(shù)據(jù),如果抽樣計算的結(jié)果有誤差,放到全樣上,誤差會被放大;而現(xiàn)在全樣分析的誤差就是在全樣上,我們不需要刻意去追求精確,這時注意的就是效率,因為一些數(shù)據(jù)是有時效性的,如果當(dāng)下沒有計算出來,那這個數(shù)據(jù)就失效了
- 相關(guān)而非因果
大數(shù)據(jù)時代,我們不關(guān)心它們之間是為什么,我們只關(guān)心它們之間相互的關(guān)聯(lián),例如,你在淘寶買了本書,它還會給你推薦其他書,它不會告訴你為什么,它只會跟你說這些書之間有相關(guān)關(guān)系 
1.3 大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)的應(yīng)用有很多,這里僅列舉一些例子:
00 影視劇的投拍
在之前,影視劇的投拍多是跟風(fēng),看見哪個劇拍了之后火了,其他人也拍這類型的劇,但是它不一定火;而現(xiàn)在,通過大數(shù)據(jù)分析,我們可以分析出選用哪個演員哪個導(dǎo)演拍什么劇會火,例如,美劇《紙牌屋》就是大數(shù)據(jù)分析的結(jié)果,沒有大數(shù)據(jù)分析,沒有人知道要找這個演員和找這個導(dǎo)演然后拍這個劇會火
01 谷歌預(yù)測流感
在之前,美國的傳統(tǒng)流感預(yù)測方式就是各醫(yī)療機(jī)構(gòu)層層上報門診病歷,然后由專家匯總分析發(fā)布報告,一般來說,這個報告會比真實情況延遲一到兩周;而谷歌則是用搜索引擎實時收集各類用戶查詢信息,通過大數(shù)據(jù)分析預(yù)測流感趨勢,這是因為現(xiàn)在大多數(shù)人遇到小病時,先是求助搜索引擎,其次才是去醫(yī)院,這樣一來,谷歌就可以根據(jù)一些關(guān)鍵字如感冒、發(fā)燒去分析流感趨勢,其預(yù)測結(jié)果也和美國疾控中心發(fā)布的報告結(jié)果基本吻合
03 新冠疫情地區(qū)分布圖
近兩年的新冠疫情,我們經(jīng)常可以在手機(jī)上看到疫情的實時數(shù)據(jù)更新,其中的疫情地區(qū)分布圖就是大數(shù)據(jù)的一個應(yīng)用
1.4 大數(shù)據(jù)的關(guān)鍵技術(shù)
00 大數(shù)據(jù)技術(shù)的層次
大數(shù)據(jù)技術(shù)在以下四個層次都有發(fā)展:
- 數(shù)據(jù)采集
 - 數(shù)據(jù)存儲與管理
 - 數(shù)據(jù)處理與分析
 - 數(shù)據(jù)隱私與安全
 
但近幾年發(fā)展的大數(shù)據(jù)的最核心的技術(shù)多在數(shù)據(jù)存儲與管理層和數(shù)據(jù)處理與分析層,由此可概括的兩大核心技術(shù):
 ① 分布式存儲
- 解決海量數(shù)據(jù)的存儲問題 
- 一臺機(jī)器無法存儲,我們就借助集群進(jìn)行分布式存儲
 
 
② 分布式處理
- 解決海量數(shù)據(jù)的處理問題 
- 一臺機(jī)器無法高效完成數(shù)據(jù)處理,我們就借助集群進(jìn)行分布式處理
 
 
大數(shù)據(jù)技術(shù)原理與應(yīng)用這門課程的主要內(nèi)容就是將講這兩大核心技術(shù),分布式存儲技術(shù)與分布式處理技術(shù)主要是以谷歌的技術(shù)為代表,這其中主要的技術(shù)就是 分布式數(shù)據(jù)庫Big Table、分布式文件系統(tǒng)GFS、分布式并行處理技術(shù)MapReduce
02 大數(shù)據(jù)計算模式?
現(xiàn)在有非常多的大數(shù)據(jù)技術(shù)相關(guān)產(chǎn)品的存在,但是企業(yè)中不同的應(yīng)用場景屬于不同的計算模式,需要使用不同的大數(shù)據(jù)技術(shù),因此我們需要學(xué)會判斷計算模式并選擇合適的大數(shù)據(jù)技術(shù)相關(guān)產(chǎn)品
 ① 批處理計算
- 針對問題: 
- 大規(guī)模數(shù)據(jù)的批量處理
 
 - 批處理計算的代表產(chǎn)品: 
- MapReduce、Spark等 
- MapReduce 
- MapReduce 是批處理計算模式的典型代表,它就是把一堆數(shù)據(jù)拿過來作批量處理,它不適合用來做實時的交互式計算,無法滿足時效性的要求
 
 - Spark 
- Spark 的實時性要比 MapReduce 好,并且解決了 MapReduce 無法高效做迭代計算的問題
 
 
 - MapReduce 
 
 - MapReduce、Spark等 
 
② 流計算
- 針對問題: 
- 流數(shù)據(jù)的實時計算
 
 - 流數(shù)據(jù)需要實時處理,給出實時相應(yīng),否則分析結(jié)果就會失去商業(yè)價值
 - 流計算的代表產(chǎn)品: 
- S4、Storm、Flume、Streams、Puma、DStream、Super Mario、銀河流數(shù)據(jù)處理平臺等
 
 - 流計算可以做秒級的針對實時運算的數(shù)據(jù)
 
③ 圖計算
- 針對問題: 
- 大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理
 
 - 圖計算可以高效處理圖數(shù)據(jù),如: 
- 社交網(wǎng)絡(luò)數(shù)據(jù)就是圖結(jié)構(gòu)數(shù)據(jù)
 
 - 圖計算的代表產(chǎn)品: 
- Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
 
 
④ 查詢分析計算
- 針對問題: 
- 大規(guī)模數(shù)據(jù)的存儲管理和查詢分析
 
 - 交互式的查詢計算
 - 查詢分析計算的代表產(chǎn)品:
-Google Dremel、Hive、Cassandra、Impala等 
1.5 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系
00 云計算
-  
什么是云計算?云計算就是解決兩大核心問題:分布式存儲 和 分布式處理
 -  
云計算的典型特征:虛擬化 和 多用戶
 -  
云計算的概念:云計算就是通過網(wǎng)絡(luò)以服務(wù)的方式為用戶提供非常廉價的IT資源
 -  
云計算的優(yōu)勢:企業(yè)不需自建IT基礎(chǔ)設(shè)施,可以租用云端資源
 -  
云計算的三種模式:
- 公有云 
- 面向公眾
 
 - 私有云 
- 面向企業(yè)內(nèi)部
 
 - 混合云 
- 部分給自己,部分給外面
 
 
 - 公有云 
 -  
?三種云服務(wù):
- IaaS —— 基礎(chǔ)設(shè)施即服務(wù) 
- 將基礎(chǔ)設(shè)施(計算資源和存儲)作為服務(wù)出租
 
 - Paas —— 平臺即服務(wù) 
- 針對開發(fā)者,開發(fā)者開發(fā)產(chǎn)品時調(diào)用平臺接口,將產(chǎn)品部署在平臺上,就可以使用平臺的云計算資源
 
 - SaaS —— 軟件即服務(wù) 
- 典型案例:云財務(wù)軟件
 - 不需要本地安裝軟件再使用,對方將整個軟件以服務(wù)的形式賣給你,只要有網(wǎng)絡(luò),你就可以打開手機(jī)或電腦對軟件進(jìn)行操作
 
 
 - IaaS —— 基礎(chǔ)設(shè)施即服務(wù) 
 -  
云計算關(guān)鍵技術(shù):虛擬化、分布式存儲、分布式計算、多租戶
 
01 物聯(lián)網(wǎng)
-  
物聯(lián)網(wǎng)概念:
- 物聯(lián)網(wǎng)(IoT : The Internet of Things) 就是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸
 
 -  
物聯(lián)網(wǎng)層次架構(gòu)
 -  
物聯(lián)網(wǎng)的關(guān)鍵技術(shù):識別技術(shù) 和 感知技術(shù)
 -  
?物聯(lián)網(wǎng)、云計算與大數(shù)據(jù)三者緊密先關(guān),相輔相成
- 物聯(lián)網(wǎng)可以借助于大數(shù)據(jù)實現(xiàn)海量數(shù)據(jù)的存儲和分析
 
 - 物聯(lián)網(wǎng)可以借助于大數(shù)據(jù)實現(xiàn)海量數(shù)據(jù)的存儲和分析
 
1.6 小結(jié)
至此,我們簡要了解了大數(shù)據(jù)的產(chǎn)生和發(fā)展、大數(shù)據(jù)的特性和影響、大數(shù)據(jù)的應(yīng)用和關(guān)鍵技術(shù)以及云計算的相關(guān)概念。
√ 圈重點:
 ? 大數(shù)據(jù)的4V特性
 ? 大數(shù)據(jù)的影響(科學(xué)范式、思維)
 ? 大數(shù)據(jù)計算模式(批處理計算、流計算、圖計算、查詢分析計算)
 ? 三種云服務(wù)
 ? 大數(shù)據(jù)、云計算與物聯(lián)網(wǎng)之間的關(guān)系
總結(jié)
以上是生活随笔為你收集整理的《大数据技术原理与应用》第一章-大数据概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 2019/2/12 Python今日收获
 - 下一篇: 学习笔记02:直播串讲02