clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...
本篇文章探討了大數據分析之解決Hadoop的短板,實時大數據分析引擎ClickHouse解析,希望閱讀本篇文章以后大家有所收獲,幫助大家對相關內容的理解更加深入。
一、背景
提到大數據不得不提Hadoop,當下的Hadoop已不僅僅是當初的HDFS?+?MR(MapReduce)這么簡單。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列組件共同構成了Hadoop生態體系。Hadoop生態為今天的大數據領域提供著穩定可靠的數據服務。
Hadoop生態體系解決了大數據界的大部分問題,當然其也存在缺點。Hadoop體系的最大短板在于數據處理時效性。基于Hadoop生態的數據處理場景大部分對時效要求不高,按照傳統的做法一般是?T?+?1?的數據時效。即?Trade?+?1,數據產出在交易日?+?1?天。
ClickHouse的產生就是為了解決大數據量處理的時效性。>>>>二、概述
Clickhouse,專為在線數據分析而設計。官方提供的文檔表明,ClickHouse?日處理記錄數“十億級”。
1.特性采用列式存儲
數據壓縮
基于磁盤的存儲,大部分列式存儲數據庫為了追求速度,會將數據直接寫入內存,按時內存的空間往往很小
CPU利用率高,在計算時會使用機器上的所有CPU資源
支持分片,并且同一個計算任務會在不同分片上并行執行,計算完成后會將結果匯總
支持SQL,SQL幾乎成了大數據的標準工具,使用門檻較低
支持聯表查詢
支持實時更新
自動多副本同步
支持索引
分布式存儲查詢
2.性能
根據官方提供的數據,性能表現大致如下:低延遲:對于數據量(幾千行,列不是很多)不是很大的短查詢,如果數據已經被載入緩存,且使用主碼,延遲在50MS左右
并發量:雖然ClickHouse是一種在線分析型數據庫,也可支持一定的并發。當單個查詢比較短時,官方建議100?Queries?/?second
寫入速度:在使用MergeTree引擎的情況下,寫入速度大概是50?-?200M?/?s,如果按照1?K一條記錄來算,大約每秒可寫入50000?~?200000條記錄每秒。如果每條記錄比較小的話寫入速度會更快
3.接口對外提供Http,JDBC兩種接口方式
對內各模塊間使用TCP連接通信
4.與Hadoop的區別Hadoop體系是一種離線系統,一般很難支持即席查詢。ClickHouse可以支持即席查詢
Hadoop體系一般不支持實時更新,都采用批量更新和寫入。ClickHouse支持實時數據更新
Hadoop體系一般采用行記錄存儲,數據查詢需要掃描所有列,當表很寬時會掃描很多用不到的列。ClickHouse是列式存儲,查詢只需要加載相關的列。>>>>三、引擎
Clickhouse提供了豐富的存儲引擎,存儲引擎的類型決定了數據如何存放、如何做備份、如何被檢索、是否使用索引。不同的存儲引擎在數據寫入/檢索方面做平衡,以滿足不同業務需求。
本文由職坐標整理發布,學習更多的相關知識,請關注職坐標IT知識庫!
總結
以上是生活随笔為你收集整理的clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 前端通用下载文件方法(兼容IE)
- 下一篇: pandas 每一列相加_Python数