国内大数据开发中比较受欢迎的几款工具
1、zookeeper
一個分布式的應用程序協調服務,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的工具,讓Hadoop集群里面的節點可以彼此協調。ZooKeeper現在已經成為了 Apache的頂級項目,為分布式系統提供了高效可靠且易于使用的協同服務。
2、HDFS
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。
3、Kafka
一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模網站中的所有動作流數據,目前已成為大數據系統在異步和分布式消息之間的最佳選擇。
4、Spark
一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。
5、Hadoop
一個開源框架,適合運行在通用硬件,支持用簡單程序模型分布式處理跨集群大數據集,支持從單一服務器到上千服務器的水平scale up。Apache的Hadoop項目已幾乎與大數據劃上了等號,它不斷壯大起來,已成為一個完整的生態系統,擁有眾多開源工具面向高度擴展的分布式計算。高效、可靠、可伸縮,能夠為你的數據存儲項目提供所需的YARN、HDFS和基礎架構,并且運行主要的大數據服務和應用程序。
6、Storm
Storm是Twitter開源的一個類似于Hadoop的實時數據處理框架。編程模型簡單,顯著地降低了實時處理的難度,也是當下最人氣的流計算框架之一。與其他計算框架相比,Storm最大的優點是毫秒級低延時。
7、Hive
是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
8、Redis
是一個高性能的key-value存儲系統,和Memcached類似,它支持存儲的value類型相對更多,包括string(字符串)、list(鏈表)、set(集合)和zset(有序集合)。Redis的出現,很大程度補償了memcached這類key/value存儲的不足,在部分場合可以對關系數據庫起到很好的補充作用。
9、HDFS
Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。
10、HBase
是Hadoop的數據庫,一個分布式、可擴展、大數據的存儲。是為有數十億行和數百萬列的超大表設計的,是一種分布式數據庫,可以對大數據進行隨機性的實時讀取/寫入訪問。提供類似谷歌Bigtable的存儲能力,基于Hadoop和Hadoop分布式文件系統(HDFS)而建。
11、Elasticsearch
是一個基于Lucene的搜索服務器。它提供了一個分布式、支持多用戶的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發的,并作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎。設計用于云計算中,能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。
。。。。。。
以上的這些工具就是目前國內大數據開發環境中常用的一些工具。當然除此之后還有很多,包括Samza、Flink、Stinger、 Drill等等。掌握的技術當然是越多越好,尤其是互聯網行業,只有不斷的去學習,了解新的技術才不會被淘汰。
個人見解,歡迎大家踴躍發言并且推薦目前大數據常用的工具還有哪些
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的国内大数据开发中比较受欢迎的几款工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dubbo和Spring Cloud微服
- 下一篇: MySQL常见备份与恢复方案