[大数据 ]Apache大数据项目目录
在使用BigData大約8年以上之后,我遇到了大量的項目。 Esp Apache的運動對于BigData域非常強大。每個人都會提出一個針對特定解決方案的項目。但是,由于有這么多項目出現,我找不到一個可以查看它們的地方。所以,這就是這個頁面背后的靈感。一站式,查看所有Apache BigData項目。當然,這個頁面需要不斷更新。如果您發現任何項目缺失,請發表評論
我同意一個大的列表(43個以上的項目),但這就是能夠進行BigData處理的項目的范圍。此外,可能有多個項目符合您的要求。關鍵是要確定哪些最適合您的要求與給定的硬件。
注意:如果您遇到一些Apache BigData項目但未在此處提及的項目,請發表評論。我將檢查并將它們添加到此列表中。
1 Apache Airavata
Apache Airavata是一個框架,支持在基于網格的系統,遠程集群和基于云的系統中執行和管理計算科學應用程序和工作流。 Airavata的主要重點是在基于網格的系統中提交和管理應用程序和工作流程。 Airavata的架構也可擴展,以支持其他底層資源。傳統的科學應用程序為用戶提供了一個門戶,可以提交和管理被稱為科學網關的科學應用程序。 Airavata可以被科學網關開發人員用作他們的中間件層。他們可以直接調用airavata API,以便與基于網格的系統進行通信。
2 Apache Airflow(Incubating)
Airflow是一個以編程方式創作,安排和監控工作流程的平臺。
使用氣流將工作流作為任務的有向非循環圖(DAG)。氣流調度程序在遵循指定的依賴關系的同時在一組工作程序上執行您的任務。
3 Apache Ambari
Apache Ambari是一個用于配置,管理和監控Apache Hadoop集群的工具。 Ambari包含一組RESTful API和基于瀏覽器的管理界面。
4 Apache Apex
Apache Apex是一個用于大數據流和批處理的統一平臺。用例包括攝取,ETL,實時分析,警報和實時操作。 Apex是Hadoop本地YARN實現,默認使用HDFS。它通過縮短上市時間簡化了Hadoop應用程序的開發和產品化。主要功能包括具有容錯的企業級可操作性,狀態管理,事件處理保證,無數據丟失,內存中性能和可伸縮性以及本機窗口支持。
5 Apache Avro
Apache Avro?是一種數據序列化系統。
Avro提供:
豐富的數據結構。
緊湊,快速的二進制數據格式。
容器文件,用于存儲持久數據。
遠程過程調用(RPC)。
與動態語言的簡單集成。不需要代碼生成來讀取或寫入數據文件,也不需要使用或實現RPC協議。代碼生成作為可選優化,僅值得為靜態類型語言實現。
6 Apache Arrow
為列式內存分析提供支持。它是一種新格式,可以在BigData生態系統中以統一的方式使用。利用最新的硬件(如SIMD)以及軟件(柱狀)增強功能,并在整個生態系統中提供統一的標準
7 Apache Beam
Apache Beam是一種用于批處理和流數據處理的統一編程模型,可以跨多種分布式執行引擎高效執行,并提供可擴展點,以連接到不同的技術和用戶社區。
8 Apache Bigtop
Bigtop是一個用于開發Apache Hadoop生態系統的打包和測試的項目。 Bigtop的主要目標是圍繞Hadoop相關項目的打包和互操作性測試構建社區。這包括在社區開發的各個級別(包裝,平臺,運行時,升級等)進行測試,重點是整個系統,而不是單個項目。簡而言之,我們努力為Hadoop提供Debian對Linux的支持。
9 Apache BookKeeper
BookKeeper是一種可靠的復制日志服務。它可用于將任何獨立服務轉換為高可用性復制服務。 BookKeeper具有高可用性(無單點故障),并且隨著更多存儲節點的添加而水平擴展。
10 Apache Calcite
Calcite是一個用于編寫數據管理系統的框架。它使用可插入的查詢轉換規則將在關系代數中表示的查詢轉換為高效的可執行形式。有一個可選的SQL解析器和JDBC驅動程序。 Calcite不存儲數據或具有首選執行引擎。數據格式,執行算法,規劃規則,運算符類型,元數據和成本模型在運行時作為插件添加。
11 Apache Chukwa
Chukwa是一個用于監控大型分布式系統的開源數據收集系統。 Chukwa構建于Hadoop分布式文件系統(HDFS)和Map / Reduce框架之上,并繼承了Hadoop的可擴展性和健壯性。 Chukwa還包括一個靈活而強大的工具包,用于顯示,監控和分析結果,以充分利用收集的數據。
12 Apache CouchDB
Apache CouchDB是一個完全包含Web的數據庫。使用JSON文檔存儲數據。使用Web瀏覽器通過HTTP訪問您的文檔。使用JavaScript查詢,組合和轉換文檔。 Apache CouchDB適用于現代Web和移動應用程序。您甚至可以直接從Apache CouchDB中提供Web應用程序。您可以使用Apache CouchDB的增量復制有效地分發您的數據或應用程序。 Apache CouchDB支持具有自動沖突檢測的主 - 主設置。
13 Apache Crunch
Apache Crunch Java庫提供了一個用于編寫,測試和運行MapReduce管道的框架。它的目標是使由許多用戶定義函數組成的流水線易于編寫,易于測試和高效運行。
Apache Crunch?庫運行在Hadoop MapReduce和Apache Spark之上,是一個簡單的Java API,用于加入和數據聚合等在平面MapReduce上實現繁瑣的任務。在處理不適合關系模型的數據時,API尤其有用,例如時間序列,序列化對象格式(如協議緩沖區或Avro記錄)以及HBase行和列。對于Scala用戶,有Scrunch API,它基于Java API構建,并包含用于創建MapReduce管道的REPL(讀取 - 評估 - 打印循環)。
14 Apache DataFu(孵化)
Apache DataFu由兩個庫組成:Apache DataFu Pig是Apache Pig中用于數據分析的有用的用戶定義函數的集合。
Apache DataFu Hourglass是一個使用Apache Hadoop MapReduce逐步處理數據的庫。該庫的靈感來自于對日常跟蹤數據的滑動窗口計算的預測。諸如這些的計算通常以規則的間隔(例如,每天,每周)發生,因此計算的滑動性質意味著大部分工作被不必要地重復。創建DataFu的沙漏是為了使這些計算更有效,有時可以減少50-95%的計算資源。
15 Apache DirectMemory(在Attic中)
Apache DirectMemory是Java虛擬機的堆外緩存
16 Apache Drill
Apache Drill是一個分布式MPP查詢層,支持針對NoSQL和Hadoop數據存儲系統的SQL和替代查詢語言。它的靈感部分來自谷歌的Dremel。
17 Apache Edgent(孵化)
Apache Edgent是一種編程模型和微內核樣式運行時,可嵌入網關和小型邊緣設備中,實現對來自設備,車輛,系統的連續數據流的本地實時分析,各種器具,設備和傳感器(例如,覆盆子Pis或智能手機)。 Apache Edgent與集中分析系統配合使用,可在整個物聯網生態系統中提供高效,及時的分析:從中心到邊緣。
18 Apache Falcon
Apache Falcon是Hadoop的數據處理和管理解決方案,專為數據移動,數據管道協調,生命周期管理和數據發現而設計。 Falcon使最終消費者能夠在Hadoop集群上快速加載其數據及其相關的處理和管理任務。
19 Apache Flink
Flink是一個用于表達,聲明,快速和高效數據分析的開源系統。它將分布式MapReduce類平臺的可擴展性和編程靈活性與并行數據庫中的效率,核外執行和查詢優化功能相結合。
20 Apache Flume
Apache Flume是一個分布式,可靠且可用的系統,用于有效地從許多不同的源收集,聚合和移動大量日志數據到集中式數據存儲
21 Apache Giraph
Apache Giraph是一個為高可擴展性而構建的迭代圖形處理系統。例如,它目前在Facebook上用于分析用戶及其連接形成的社交圖。
22 Apache Hadoop
Apache?Hadoop?項目開發了用于可靠,可擴展的分布式計算的開源軟件。
23 Apache Hama
Apache Hama是一種高效且可擴展的通用BSP計算引擎,可用于加速各種計算密集型分析應用程序。
24 Apache HAWQ
Apache HAWQ是一個Hadoop本機SQL查詢引擎,它結合了MPP數據庫的關鍵技術優勢和Hadoop的可擴展性和便利性。
25 Apache Helix
Apache Helix是一個通用的集群管理框架,用于自動管理節點集群上托管的分區,復制和分布式資源。 Helix在面對節點故障和恢復,集群擴展和重新配置時自動重新分配資源。
26 Apache Ignite
Apache Ignite內存數據結構旨在為從高性能計算到業界最先進的數據網格,內存中SQL,內存文件系統的各種內存計算用例提供無與倫比的性能,流式傳輸等。
27 Apache Kafka
單個Kafka代理可以處理來自數千個客戶端的每秒數百兆字節的讀寫操作。 Kafka旨在允許單個群集充當大型組織的中央數據主干。它可以彈性和透明地擴展,無需停機。數據流被分區并分布在一組機器上,以允許數據流大于任何一臺機器的能力,并允許協調的消費者群集。 Kafka采用現代以集群為中心的設計,提供強大的耐用性和容錯保證。消息將保留在磁盤上并在群集中進行復制,以防止數據丟失。每個代理都可以處理數TB的消息,而不會影響性能。
28 Apache Knox
Apache Knox Gateway是一個REST API網關,用于與Hadoop集群進行交互。
Knox Gateway為所有與Hadoop集群的REST交互提供單一訪問點。
在這種能力下,諾克斯網關能夠提供有價值的功能來幫助控制,
集成,監控和自動化企業的關鍵管理和分析需求。
身份驗證(LDAP和Active Directory身份驗證提供程序)聯合/ SSO(基于HTTP標頭的身份聯合)授權(服務級別授權)審核雖然不安全的Hadoop群集有許多好處,
Knox Gateway也很好地補充了kerberos安全集群。
加上Kerberos安全Hadoop集群的正確網絡隔離,
Knox Gateway為企業提供以下解決方案:
與企業身份管理解決方案完美集成保護Hadoop集群部署的詳細信息(主機和端口對最終用戶隱藏)簡化客戶端與之交互所需的服務數量
29 Apache Kudu
Kudu提供快速插入/更新和高效柱狀掃描的組合,可在單個存儲層上實現多個實時分析工作負載。
30 Apache Lens
Lens提供統一分析界面。 Lens旨在通過提供跨多個分層數據存儲的單一數據視圖和分析查詢的最佳執行環境來削減數據分析孤島。它將Hadoop與傳統數據倉庫無縫集成,看起來就像一個。
31 Apache MetaModel
使用MetaModel,您可以獲得許多非常不同的數據存儲類型的統一連接器和查詢API,包括:關系(JDBC)數據庫,CSV文件,Excel電子表格,XML文件,JSON文件,固定寬度文件,MongoDB,Apache CouchDB,Apache HBase,Apache Cassandra,ElasticSearch,OpenOffice.org數據庫,Salesforce.com,SugarCRM甚至普通舊Java對象(POJO)的集合。
MetaModel不是數據映射框架。相反,它強調元數據的抽象和在運行時添加數據源的能力,使MetaModel非常適用于通用數據處理應用程序,對于圍繞特定域建模的應用程序則更少。
32 Apache Metron
Apache Metron提供可擴展的高級安全分析框架,該框架使用從Cisco OpenSOC項目演變而來的Hadoop社區構建。一種網絡安全應用程序框架,使組織能夠檢測網絡異常并使組織能夠快速響應已識別的異常情況。
33 Apache Oozie
Oozie是一個用于管理Apache Hadoop作業的工作流程調度程序系統。 Oozie與Hadoop堆棧的其余部分集成,支持多種類型的Hadoop作業(例如Java map-reduce,Streaming map-reduce,Pig,Hive,Sqoop和Distcp)以及系統特定的工作(例如Java程序和shell腳本)。
34 Apache ORC
ORC是一種自描述類型感知的列式文件格式,專為Hadoop工作負載而設計。它針對大型流式讀取進行了優化,但具有快速查找所需行的集成支持。以列式格式存儲數據使讀者只能讀取,解壓縮和處理當前查詢所需的值。
35 Apache Parquet
Apache Parquet是一種通用的列式存儲格式,專為Hadoop而構建,可與任何數據處理框架,數據模型或編程語言一起使用。
36 Apache Phoenix
Apache Phoenix通過提供利用Apache HBase作為其后備存儲的關系數據庫層,為Apache Hadoop提供OLTP和運營分析。它包括與Apache Spark,Pig,Flume,Map Reduce以及Hadoop生態系統中的其他產品的集成。它作為JDBC驅動程序訪問,并允許通過標準SQL查詢,更新和管理HBase表。
37 Apache REEF
Apache REEF(可保留評估程序執行框架)是一個開發框架,它提供了一個控制平面,用于調度和協調從資源管理器獲取的集群資源的任務級(數據平面)工作。 REEF提供了促進數據緩存資源重用的機制,以及狀態管理抽象,極大地簡化了支持Resource Manager服務的云平臺上彈性數據處理工作流的開發。
38 Apache Samza
Apache Samza提供了一個系統,用于處理來自Apache Kafka等發布 - 訂閱系統的流數據。開發人員編寫流處理任務,并將其作為Samza作業執行。然后,Samza在流處理任務和消息所針對的發布 - 訂閱系統之間路由消息。
39 Apache Spark
Apache Spark是一種用于大規模數據處理的快速通用引擎。它提供Java,Scala和Python中的高級API以及豐富的庫,包括流處理,機器學習和圖形分析。
40 Apache Sqoop
Apache Sqoop(TM)是一種工具,用于在Apache Hadoop和結構化數據存儲(如關系數據庫)之間高效傳輸批量數據。
41 Apache Storm
Apache Storm是一個分布式實時計算系統。類似于Hadoop如何提供一組用于進行批處理的通用基元,Storm提供了一組用于進行實時計算的通用基元。
42 Apache Tajo
Apache Tajo項目的主要目標是在Hadoop中構建一個高級開源數據倉庫系統,用于處理Web規模的數據集。基本上,Tajo提供SQL標準作為查詢語言。 Tajo專為存儲在HDFS和其他數據源上的數據集進行交互式和批量查詢而設計。在不損害查詢響應時間的情況下,Tajo提供了容錯和動態負載平衡,這是長時間運行查詢所必需的。 Tajo采用基于成本的漸進式查詢優化技術來重新優化運行查詢,以避免最糟糕的查詢計劃。
43 Apache Tez
Apache Tez致力于開發通用應用程序框架,該框架可用于處理數據處理任務的任意復雜的有向無環圖(DAG),以及可用于可重用的一組數據處理原語。通過其他項目。它目前在Apache Hadoop YARN上面構建。
44 Apache VXQuery
Apache VXQuery將是一個用Java實現的符合標準的XML查詢處理器。重點是評估對大量XML數據的查詢。具體而言,目標是評估大型相對較小的XML文檔集合上的查詢。為了實現此目的,將在無共享機器的集群上評估查詢。
45 Apache Zeppelin
Zeppelin是一個基于Web的現代工具,供數據科學家在大規模數據探索和可視化項目上進行協作。
原文:「大數據」Apache大數據項目目錄 | 首席架構師(全網同號:超級架構師)https://jiagoushi.pro/big-data-apache-big-data-project-directory
總結
以上是生活随笔為你收集整理的[大数据 ]Apache大数据项目目录的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux for循环
- 下一篇: 详解:路由器性能的各项指标