白话Elasticsearch45-深入聚合数据分析之易并行聚合算法,三角选择原则,近似聚合算法
文章目錄
- 概述
- 易并行聚合算法
- 三角選擇原則
- 近似聚合算法
概述
繼續跟中華石杉老師學習ES,第45篇
課程地址: https://www.roncoo.com/view/55
易并行聚合算法
有些聚合分析的算法,是很容易就可以并行的,比如說 max
有些聚合分析的算法,是不好并行的,比如說,count(distinct),并不是說,在每個node上,直接就出一些distinct value,就可以的,因為數據可能會很多.
es會采取近似聚合的方式,就是采用在每個node上進行近估計的方式,得到最終的結論,cuont(distcint),假設數據有100萬,近似聚合算法可能估計出來105萬或者95萬 --> 5%左右的錯誤率
近似估計后的結果,不完全準確,但是速度會很快,一般會達到完全精準的算法的性能的數十倍
三角選擇原則
精準+實時+大數據 --> 3個里面只能選擇2個
-
(1)精準+實時: 沒有大數據,數據量很小,那么一般就是單擊跑,隨便你則么玩兒就可以
-
(2)精準+大數據:hadoop,批處理,非實時,可以處理海量數據,保證精準,可能會跑幾個小時
-
(3)大數據+實時:es,不精準,近似估計,可能會有百分之幾的錯誤率
近似聚合算法
近似聚合算法 : https://www.elastic.co/guide/cn/elasticsearch/guide/current/_approximate_aggregations.html
- 如果采取近似估計的算法:延時在100ms左右,0.5%錯誤
- 如果采取100%精準的算法:延時一般在幾秒~幾十秒,甚至幾十分鐘,幾小時, 0%錯誤
總結
以上是生活随笔為你收集整理的白话Elasticsearch45-深入聚合数据分析之易并行聚合算法,三角选择原则,近似聚合算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 白话Elasticsearch44-深入
- 下一篇: 白话Elasticsearch46-深入