时下最热开源大数据技术TOP10
海外開發者Tim做了一個整理,小編最快速為大家呈現。(ps:不足之處,請來信指正,我的微信就在文章最下方)以下是十大熱門開源的大數據技術:
1.Hadoop
特點高可用,能夠為你的數據存儲項目提供所需的YARN、HDFS和基礎架構,并運行關鍵的大數據服務和應用程序。
2.Spark
易使用、支持所有重要的大數據語言(Scala、Python、Java、R)。一個巨大的生態系統,迅速的發展,對microbatching/batching/SQL支持。另外,Spark能適用于數據挖掘與機器學習等MapReduce的算法
3.NiFi
美國國家安全局(NSA)給Apache基金會的開源項目。用最簡單的數據攝取、存儲和處理數據。兩個特性是直接的Java代碼編寫極其強的用戶界面和數據回溯工具。好似大數據工具箱中的瑞士軍刀。
4.Apache Hive 2.1
Hive 是基于Hadoop的一個數據倉庫工具。可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能,可以將SQL語句轉換成MapReduce任務進行運行。優點就是學習成本低。最新版本的性能和功能都得到了全面提升,Hive已成為SQL在大數據上的最佳解決方案。
5.Kafka
Kafka是一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其他用戶的行動)是在現代網絡上的許多社會功能的一個關鍵因素。 這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。它已成為大數據系統在異步和分布式消息之間的最佳選擇。從Spark到NiFi再到第三方插件工具以至于Java到Scala,都提供了強大的粘合作用。
6.Phoenix
是HBase的SQL驅動。因為很多公司的使用致使其規模不斷擴大。HDFS支持的NoSQL能夠很好地集成所有工具。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,并編排執行以生成標準的JDBC結果集。
7.Zeppelin
提供交互數據分析且基于Web的筆記本工具。方便你做出可數據驅動的、可交互且可協作的圖表,并且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。
8.Sparkling Water
H2O填補了Spark’s Machine Learning的缺口,滿足所有機器學習。
9.Apache Beam
在Java中提供統一的數據進程管道開發,并且能夠很好地支持Spark和Flink。提供很多在線框架,開發者無需學習太多框架。
10.Stanford CoreNLP
自然語言處理有越發的增長空間,斯坦福正繼續努力增進他們的框架。
作者: 楊璐
來源:IT168
原文鏈接:時下最熱開源大數據技術TOP10
總結
以上是生活随笔為你收集整理的时下最热开源大数据技术TOP10的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提高收益 酒店大数据之客户数据收集
- 下一篇: [译] 你是如何拆分组件的?