百万大数据架构师学习笔记
什么是大數(shù)據(jù)技術(shù)?
對于一個從事大數(shù)據(jù)行業(yè)人來說,一切數(shù)據(jù)都是有意義的。因為通過數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)等,我們可以發(fā)現(xiàn)很多有用的或有意思的規(guī)律和結(jié)論。
比如,北京公交一卡通每天產(chǎn)生4千萬條刷卡記錄,分析這些刷卡記錄,可以清晰了解北京市民的出行規(guī)律,來有效改善城市交通。
但這4千萬條刷卡數(shù)據(jù) ,不是想用就能用的,需要通過“存儲”“計算”“智能”來對數(shù)據(jù)進行加工和支撐,從而實現(xiàn)數(shù)據(jù)的增值。
而在這其中,最關(guān)鍵的問題不在于數(shù)據(jù)技術(shù)本身,而在于是否實現(xiàn)兩個標準:第一,這4千萬條記錄,是否足夠多,足夠有價值;第二,是否找到適合的數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用。
下面就來簡單說說上述提到的一些和“大數(shù)據(jù)“”形影不離的“小伙伴們”——
云計算
由于大數(shù)據(jù)的采集、存儲和計算的量都非常大,所以大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的數(shù)據(jù)。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
可以說,大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”,云計算相當(dāng)于計算機和操作系統(tǒng),將大量的硬件資源虛擬化后再進行分配使用。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力, “動一下鼠標就可以在秒級操作PB級別的數(shù)據(jù)”。
Hadoop/HDFS /Mapreduce/Spark
除了云計算,分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光。
Hadoop是Apache軟件基金會旗下的一個分布式計算平臺,為用戶提供了系統(tǒng)底層細節(jié)透明的開源分部式基礎(chǔ)架構(gòu)。它是一款用Java編寫的開源軟件框架,用于分布式存儲,并對非常大的數(shù)據(jù)集進行分布式處理,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,現(xiàn)在Hadoop被公認為行業(yè)大數(shù)據(jù)標準開源軟件。
而HDFS為海量的數(shù)據(jù)提供了存儲;Mapreduce則為海量的數(shù)據(jù)提供了并行計算,從而大大提高計算效率。它是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,能允許開發(fā)者在不具備開發(fā)經(jīng)驗的前提下也能夠開發(fā)出分布式的并行程序,并讓其運行在數(shù)百臺機器上,在短時間完成海量數(shù)據(jù)的計算。
在使用了一段時間的 MapReduce 以后,程序員發(fā)現(xiàn) MapReduce 的程序?qū)懫饋硖闊?#xff0c;希望能夠封裝出一種更簡單的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同時Spark/storm/impala等各種各樣的技術(shù)也相繼進入數(shù)據(jù)科學(xué)的視野。比如Spark是Apache Software Foundation中最活躍的項目,是一個開源集群計算框架,也是一個非常看重速度的大數(shù)據(jù)處理平臺。
打個比方,如果我們把上面提到的4千萬條記錄比喻成“米”,那么,我們可以用“HDFS”儲存更多的米,更豐富的食材;如果我們有了“Spark”這些組件(包括深度學(xué)習(xí)框架Tensorflow),就相當(dāng)于有了“鍋碗瓢盆”,基本上就能做出一頓可口的飯菜了。
鏈接:https://pan.baidu.com/s/1_4PIUb-Yl68aTW9Bw95iJA
提取碼:tnav
總結(jié)
以上是生活随笔為你收集整理的百万大数据架构师学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么叫做绩效奖金 关系着你工资的高低
- 下一篇: 私家车有必要买驾乘险吗