Apache Fluo:填充Google搜索索引的Percolator的实现
Apache Fluo是Apache Accumulo [3]的Percolator [2](填充Google的搜索索引)的開源實現(xiàn) 。 使用Fluo,用戶可以將新數(shù)據(jù)連續(xù)地合并到大型現(xiàn)有數(shù)據(jù)集中,而無需重新處理所有數(shù)據(jù)。 與批處理和流傳輸框架不同,Fluo提供了低得多的延遲,并且可以處理非常大的數(shù)據(jù)集[1]。
主要特點
降低延遲
與批處理框架(例如Spark,MapReduce)相比,將新數(shù)據(jù)與現(xiàn)有數(shù)據(jù)結合在一起時,Fluo可以減少延遲。
可靠
增量更新是使用事務實現(xiàn)的,該事務允許在不破壞數(shù)據(jù)的情況下并發(fā)執(zhí)行數(shù)千個更新。
避免重新處理數(shù)據(jù)
將新數(shù)據(jù)與現(xiàn)有數(shù)據(jù)結合起來,而不必重新處理整個數(shù)據(jù)集。
一般用途
Fluo應用程序由一系列觀察者組成,這些觀察者在更新觀察數(shù)據(jù)時執(zhí)行用戶代碼。
核心API
核心Fluo API使用get / set方法支持簡單的跨節(jié)點事務更新。
配方API
Fluo Recipes API建立在核心API上,可提供復雜的事務更新。
Apache Fluo于2017年7月畢業(yè)于Apache孵化器 ,成為頂級項目。對于新手來說,學習此類技術并不容易。 但是,社區(qū)已經(jīng)為其創(chuàng)建了一個教程和一個框架項目。 可以跟隨Fluo Tour [4]學習如何使用Fluo。 您可以從Apache Fluo GitHub存儲庫中分叉源代碼[5]。 此外,它有一個活躍的社區(qū),@ ApacheFluo通常在Twitter上提到新的貢獻者。
資源:
[1] https://fluo.apache.org [2] research.google.com/pubs/pub36726 [3] accumulo.apache.org [4] https://fluo.apache.org/tour [5] https ://github.com/apache/fluo
翻譯自: https://www.javacodegeeks.com/2017/12/apache-fluo-implementation-percolator-populates-googles-search-index.html
總結
以上是生活随笔為你收集整理的Apache Fluo:填充Google搜索索引的Percolator的实现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tq是什么意思 关于tq的意思介绍
- 下一篇: 朋友圈设置一个月可见怎么设置