商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(二)
數據倉庫
數據倉庫定義:數據倉庫是面向主題的、集成的、穩定的、反應歷史變化的、隨著時間的歷史吧反應變化的數據集合。
數據倉庫的特點:
(1)面向主題:常規數據庫主要是面向事務性處理,比如增刪改查。數倉則是將所有數據按照一定的主題劃分。(主題是指對業務數據的一種抽象,從更高的層面上對系統中的數據進行的排版)。面向主題的數據組織分兩種:面向原系統業務數據的特點進行主題抽取和確定每個系統主題的具體內容進行抽取,例如客戶關系主題、總賬主題、財務主題等。
(2)集成性:常規操作數據庫是相對獨立,無法通過里面的數據反饋出信息。數倉中的數據通過抽取、清洗、轉換等步驟得到的,需對其中數據編碼進行統一,保持數據的一致。因此數倉要統一編碼,消除垃圾數據。
集成分兩種:
數據集成:
編碼集成:
(3)穩定性:數倉作為存儲數據的工具,保留了一定時間的歷史數據,主要用于查詢,分析,不進行定時更新,數據入庫后將會保存,超出時間后進行刪除,不更新。
(4)反映數據歷史變化:數倉反應一定時間的歷史數據,積累了很多數據與普通操作數據庫不同。
數據倉庫與數據庫的區別:
數據庫:????????????????????????????????????????????????????????????????? 數據倉庫:
面向應用????????????????????????????????????????????????????????????????? 面向主題
事務性數據處理?????????????????????????????????????????????????????? 分析、處理數據
實時性高????????????????????????????????????????????????????????????????? 實時性不高
檢索量小????????????????????????????????????????????????????????????????? 檢索量大
面向普通用戶?????????????????????????????????????????????????????????? 面向高層領導
數倉的分層:
數倉保存了大量的歷史數據,數據量及大,如果直接查詢源數據,任務數巨大,響應時間較長,甚至出現服務器崩潰等情況。因此需要分層,看似數據出現了冗余,實際上每層數據的劃分依據不同,顆粒度也并不相同。也不免了ETL過程中出現危險操作。例如在進行數據抽取時,直接對源數據進行操作非常危險,比如抽取時數據丟失,或出現操作員誤操作等情況,因此單獨分一個ODS貼源層,避免直接對源數據進行操作。分層同時也可以減少重復開發,大多數業務場景使用的數據可以使下游拿來就用,省去從頭開發,節省時間。
下圖為數倉簡單分層樣例:
?
上述為數倉基本知識分享,后繼更新ETL。
總結
以上是生活随笔為你收集整理的商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 系统重启后mipi屏幕黑屏的问题
- 下一篇: 零基础学习人工智能如何入门?
