【大数据学习-hadoop1】大数据如何处理
文章目錄
- 1. 大數(shù)據(jù)啟蒙
- 1.1 意義
- 1.1.1 查找元素
- 1.1.2 單機(jī)處理大數(shù)據(jù)問題
- 1.2 歷史
- 1.3 hadoop
1. 大數(shù)據(jù)啟蒙
學(xué)習(xí)視頻
大數(shù)據(jù)多,復(fù)雜度很重要,
- 內(nèi)存不夠,分治處理
- IO仍成為瓶頸,多機(jī)器并行
- 多機(jī)器間通信也可以并行,但仍是個(gè)問題
- 分發(fā)上傳,累計(jì)計(jì)算的話,多臺同時(shí)跑+通信也比一臺快
總結(jié)(大數(shù)據(jù)的重點(diǎn))
- 分而治之
- 并行計(jì)算
- 計(jì)算向數(shù)據(jù)移動(dòng):數(shù)據(jù)移動(dòng)化成本高
- 數(shù)據(jù)本地化讀取
1.1 意義
1.1.1 查找元素
1w個(gè)元素中查找X?
線性查找:O(N)
想要O(4)呢?hash
1.1.2 單機(jī)處理大數(shù)據(jù)問題
大文本,僅兩行一樣,想要找出。
單機(jī),內(nèi)存小(幾十兆)
2. 如果文件中全是數(shù)字,做排序呢?
桶排序:外部有序,內(nèi)部無序
先分到不同桶里,再給桶內(nèi)排序
歸并:一次讀50M排序,第二次在讀50M對這個(gè)50M排序–外部無序,內(nèi)部無序
單機(jī)IO瓶頸,所以多機(jī)器并行
多臺機(jī)器并行操作,處理速度快,但不同機(jī)器間網(wǎng)絡(luò)通信?
1.2 歷史
Hadoop
NDFS(一開始的文件系統(tǒng))
hadoop.apache.org:頂級項(xiàng)目
1.3 hadoop
hadoop項(xiàng)目包含:
1.x:
hadoop common
hdfs(hadoop distributed file system
hadoop mapreduce
2.x:
新增yarn:job管理、資源分配
其他相關(guān)項(xiàng)目(生態(tài)圈):
Hbase:
Hive:sql、數(shù)倉
Spark:用內(nèi)存,更快,是hadoop的十倍
Zookeeper:協(xié)調(diào)服務(wù)
…
網(wǎng)站:www.cloudera.com
ducumentation:選擇版本
目前企業(yè)版本:5.16.X–可靠,hadoop2.6
原來:batch批量計(jì)算
flink/spark:全棧的
- flink:阿里用的多:流式計(jì)算,來一個(gè)搞一個(gè)/5min跑一次
- 可以實(shí)時(shí)
- spark:偽實(shí)時(shí)
總結(jié)
以上是生活随笔為你收集整理的【大数据学习-hadoop1】大数据如何处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 9 计算机组成原理第五章 中央处理器
- 下一篇: 课程设计-毕业设计-JAVA画板课程设计