大数据技术原理与应用 第三版 林子雨 期末复习(一)大数据概述 第一章 P2
大數(shù)據(jù)技術原理與應用 第三版 林子雨 期末復習(一)大數(shù)據(jù)概述 第一章 P2
- 大數(shù)據(jù)概念(4V)
- 三次信息化浪潮(每隔15年發(fā)生一次)
- 大數(shù)據(jù)對于研究思維的影響
- 數(shù)據(jù)產生的三個階段
- 大數(shù)據(jù)計算模式
- 大數(shù)據(jù)與云計算、物聯(lián)網
- 概念
- 云計算種類與服務模式
- 大數(shù)據(jù)與云計算、物聯(lián)網的關系
大數(shù)據(jù)概念(4V)
1 volume (大量)
隨著傳感器等技術的應用,數(shù)據(jù)規(guī)模逐漸增大,而大數(shù)據(jù)的規(guī)模通常達到PB EB級。
2 variety (多種)
大數(shù)據(jù)涉及到的數(shù)據(jù)種類多,包含大量結構化與非結構化數(shù)據(jù)。
3 velocity (高速)
同一時間下有大量數(shù)據(jù)產生,并且某些數(shù)據(jù)價值會隨著時間流逝下降,因此大數(shù)據(jù)對數(shù)據(jù)處理的實時性要求較高。
4 value (價值)
對于大數(shù)據(jù)而言價值密度較低,整體價值較高,很多有價值的信息分散于海量數(shù)據(jù)當中。
三次信息化浪潮(每隔15年發(fā)生一次)
| 第一次 | 1980 | 個人計算機 | 信息處理 |
| 第二次 | 1995 | 互聯(lián)網 | 信息傳輸 |
| 第三次 | 2010 | 大數(shù)據(jù)、云計算、物聯(lián)網 | 信息爆炸 |
大數(shù)據(jù)對于研究思維的影響
1 全樣而非抽樣
大數(shù)據(jù)時代,隨著數(shù)據(jù)存儲與分析能力的提升,更傾向于使用全樣數(shù)據(jù)而非抽樣數(shù)據(jù)解決問題。
2 效率而非精準
由于使用了全樣數(shù)據(jù)因此在傳統(tǒng)分析方法中誤差的放大問題得以解決,同時由于數(shù)據(jù)量的激增所以可以犧牲部分精確性保證效率。
3 相關而非因果
在大數(shù)據(jù)時代更感興趣的是事物之間的相關性而非因果性。
數(shù)據(jù)產生的三個階段
1 運營式系統(tǒng)階段(被動)
傳統(tǒng)數(shù)據(jù)產生隨著運營信息產生而產生,通常存儲于SQL中。
2 原創(chuàng)式系統(tǒng)階段(主動)
智能手機等移動設備的出現(xiàn)加速了用戶原創(chuàng)性內容的產生。
3 感知式系統(tǒng)階段(自動)
物聯(lián)網的發(fā)展與傳感器的應用最終導致了大數(shù)據(jù)量的產生。
大數(shù)據(jù)計算模式
大數(shù)據(jù)計算模式 解決問題 代表產品
批處理 大規(guī)模數(shù)據(jù)的批量處理 MapReduce Spark
流計算 實時流數(shù)據(jù) Stom Flink Spark streaming
圖計算 大規(guī)模圖結構 GraphX
查詢分析 大規(guī)模數(shù)據(jù)的存儲管理和查詢分析 Hive
| 批處理 | 大規(guī)模數(shù)據(jù)的批量處理 | MapReduce、Spark |
| 流計算 | 實時流數(shù)據(jù) | Stom、Flink、Spark streaming |
| 圖計算 | 大規(guī)模圖結構 | GraphX |
| 查詢分析 | 大規(guī)模數(shù)據(jù)的存儲管理和查詢分析 | Hive |
大數(shù)據(jù)與云計算、物聯(lián)網
概念
云計算:通過網絡獲取計算資源。
物聯(lián)網:物物聯(lián)網,可以看作互聯(lián)網的延伸。
云計算種類與服務模式
大數(shù)據(jù)與云計算、物聯(lián)網的關系
大數(shù)據(jù)注重于對海量數(shù)據(jù)的存儲、處理、分析。
云計算注重于通過網絡提供廉價計算資源。
物聯(lián)網側重實現(xiàn)物物相連,是創(chuàng)新應用開發(fā)核心。
本文及后續(xù)文章內容均由個人總結,僅用于復習記錄,如發(fā)現(xiàn)錯誤請大家伙指正,侵刪。
總結
以上是生活随笔為你收集整理的大数据技术原理与应用 第三版 林子雨 期末复习(一)大数据概述 第一章 P2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】store_schema.sql
- 下一篇: win7NVIDIA显卡驱动升级时卡住