ORCFILE,ParquetFile,CubeFile使用场景区别
生活随笔
收集整理的這篇文章主要介紹了
ORCFILE,ParquetFile,CubeFile使用场景区别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
這個其實是轉自杭州第三次spark meetingup,華為的李昆大神的分享。
| OLAP分析場景 | ORC?File | Parquet?File | Cube?File |
| Full?scan?one?dimension | Fast? | Fast | Median |
| (Low?Cardinality) | (只掃需要的列) | (只掃需要的列) | (只掃需要的列,但MDK較大) |
| Full?scan?one?dimension | Slow | Slow | Fast |
| (High?Cardinality) | (Stripe?Level字典編碼,需要重復解碼) | (Row?Group?Level字典編碼,需要重復解碼) | (全局字典編碼,無重復解碼) |
| Full?scan?multiple?dimension?aggregation | Slow | Slow | Fast |
| (讀取多行并做join) | (讀取多行并做join) | (星型模型轉換后無需join) | |
| Filter?single?dimension | Slow | Very?Slow | Fast |
| (需要全掃描單列,可利用min/max跳過Stripe) | (需要全掃描單列,無索引) | (利用多維索引) | |
| Filter?multiple?dimensions | Slow | Very?Slow | Very?Fast |
| Select?Year,ServiceName,? | (需要全掃描多列,可利用min/max跳過Stripe) | (需要全掃描多列,無索引) | (利用多維索引) |
| Filter?on?Measure | Slow | Slow | Slow |
| (需要全掃描,可利用min/max跳過Stripe) | (需要全掃描,無索引) | (度量上無索引,需要全掃描) |
?
排版有些亂,大家湊合看一下。
從這個比較來看,大基數的全量多維的查詢,CubeFile的優勢是很明顯的。
個人感覺,最大原因是ORCFile和ParquetFile他們是分塊索引數據的,而CubeFile是全量索引數據的?,F在理解的還比較淺,等深入理解后再來論這個的區別和關系。
總結
以上是生活随笔為你收集整理的ORCFILE,ParquetFile,CubeFile使用场景区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 间隔定时器
- 下一篇: Ubuntu下Git服务端搭建