阿帕奇光束
Apache Beam是一個開放源代碼統一模型,用于定義批處理和流數據并行處理管道。 使用一種開源的Beam SDK,您可以構建一個定義管道的程序。 然后,該管道由Beam支持的分布式處理后端之一執行,這些后端包括Apache Apex , Apache Flink , Apache Spark和Google Cloud Dataflow 。
Beam對于令人尷尬的并行數據處理任務特別有用,在該任務中,問題可以分解為許多較小的數據束,可以獨立和并行處理。 您還可以將Beam用于提取,轉換和加載(ETL)任務以及純數據集成。 這些任務對于在不同的存儲介質和數據源之間移動數據,將數據轉換為更理想的格式或將數據加載到新系統上非常有用。
Apache Beam管道運行器
Beam Pipeline運行器將您使用Beam程序定義的數據處理管道轉換為與您選擇的分布式處理后端兼容的API。 運行Beam程序時,需要為要在其中執行管道的后端指定適當的運行程序。
Beam當前支持與以下分布式處理后端一起使用的Runner:
- Apache Apex
- Apache Flink
- Apache Gearpump(正在孵化)
- 阿帕奇火花
- Google Cloud Dataflow
[1] https://beam.apache.org
翻譯自: https://www.javacodegeeks.com/2018/02/apache-beam.html
總結
- 上一篇: 手机格式化是什么意思(苹果手机格式化是什
- 下一篇: 苹果mac电脑软件下载(mac下载iph