数据仓库、数据集市、数据湖,这些大数据名词你知道多少?
數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
?
數據集市(Data Mart) ,也叫數據市場,數據集市就是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體。
從范圍上來說,數據是從企業范圍的數據庫、數據倉庫,或者是更加專業的數據倉庫中抽取出來的。數據中心的重點就在于它迎合了專業用戶群體的特殊需求,在分析、內容、表現,以及易用方面。數據中心的用戶希望數據是由他們熟悉的術語表現的。
?
數據湖或hub的概念最初是由大數據廠商提出的,表面上看,數據都是承載在基于可向外擴展的HDFS廉價存儲硬件之上的。但數據量越大,越需要各種不同種類的存儲。最終,所有的企業數據都可以被認為是大數據,但并不是所有的企業數據都是適合存放在廉價的HDFS集群之上的。
?
以上為三個名詞的解釋。
但是說到之間的聯系,或者不同,或許在于數據倉庫和數據集市之間更有的說:
數據倉庫是一個集成的、面向主題的數據集合,設計的目的是支持DSS(決策支持系統)功能。在數據倉庫里,每個數據單元都與特定的時間相關。數據倉庫包括原子級別的數據和輕度匯總的數據,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。
單獨的DB2數據庫包括企業的數據集市。每個數據集市包括來自中央數據倉庫的歷史數據的子集,用以滿足特定部門、團隊、客戶或應用程序分析和報告需求。主管此DB2數據庫的系統稱為數據集市服務器。盡管可以有許多數據集市,但只能有一個數據集市服務器。
數據集市組件需要IBM DB2 Universal Database Enterprise Edition,您必須在安裝控制服務器前手工安裝它。
IBM Tivoli Monitoringfor Transaction Performance倉庫包創建結構適用于報告界面的數據集市。IBM Tivoli Monitoringfor Transaction Performance通過提供一個稱為數據集市ETL的抽取、轉換和裝入(ETL)過程來實現此操作,該進程創建數據集市并將來自中央數據倉庫的數據裝入其中。
可以修改現有的數據集市或創建包含略微不同的數據的新數據集市,以迎合您所在環境下的特定報告需要。要修改或創建數據集市,必須熟悉數據庫ETL過程以及數據集市在Tivoli。
那么數據集市就是企業級數據倉庫的一個子集,他主要面向部門級業務,并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據集市存儲為特定用戶預先計算好的數據,從而滿足用戶對性能的需求。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。
?
坦白來說:我們可以理解為,數據倉庫就是數據集市的父親,父親(數倉)那里有很多的資金(數據),然后兒子(數據集市)拿著這些資金在各個領域中(多維的方式)進行投資(存儲),然后獲得更大的利益(生成面向決策分析需求的數據立方體)。
?
而對于數據湖呢?其價值在于:
數據湖的一部分價值是把不同種類的數據匯聚到一起,另一部分價值是不需要預定義的模型就能進行數據分析。現在的大數據架構是可擴展的,并且可以為用戶提供越來越多的實時分析。在商業智能(BI)和數據倉庫還沒有被淘汰的今天,大數據分析和大數據湖正在向更多類型的實時智能服務發展,這些實時的智能服務可以支持實時的決策制定。
?
簡單來說,數據湖架構面向多數據源的信息存儲,包括物聯網在內。
?
但是這樣其缺點也大大被放大出來:
大數據分析或歸檔可通過訪問數據湖處理或交付數據子集給請求用戶。但數據湖架構可不僅僅是一個巨大的磁盤而已。
數據湖的數據持久性和安全卻是需要優先考慮的因素。很多選擇都能交付一個合理的成本,但并非所有都能滿足數據湖的長期存儲需求。挑戰就在于數據湖中很多數據永遠不會刪除。這種數據的價值在于它要拿來分析以及和年復一年的數據進行比對,這將抵消其容量成本。
在數據湖架構中,信息安全作為另一項挑戰往往被人忽視。相比于其它,這種類型的存儲安全要更加重要。數據湖架構從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數據。很多數據都以易于讀取的格式存儲,像是JPEG、PDF文件——如果你的數據湖架構不夠安全,那么信息損失很容易。
?
總結
以上是生活随笔為你收集整理的数据仓库、数据集市、数据湖,这些大数据名词你知道多少?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 那么到底什么是热点???
- 下一篇: 启动Kafka失败Java HotSpo