商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(三)
數據抽取、轉換和加載,裝載(ETL)
(1)數據抽取:抽取是源數據進入數倉的第一步,每個業務系統不同,因此需建立不同的抽取。并進行下一步清洗。抽取目的,提供批處理服務(抽取流程啟動,監控,作業調度抽取)、更標準化(業務數據源和數倉中數據類型統一)、過濾功能(保證數據質量)、數據適配(JDBC,ODBC,XML)等。
如圖:
(2)數據清洗:保證數據符合數倉要求,清洗分兩種:不同業務清洗規則不同,則可使用各自的清洗流程;不同業務清洗規則相同,則可以使用相同的清洗規則。編寫清洗規則時,也可使用通用函數,減少重復工作。
數據修正:用固定算法或檢查程序驗證數據準確性
標準化:數倉數據統一
匹配合并:數據驗證,重復數據驗證,合并
(3)數據轉換:對數據進行計算,根據業務需求的特點;對數據放大,添加額外信息;
(4)數據加載:將數據加載到目標表中,目標表可以是事實表,也可以是維度表。用代理鍵代替原來的主鍵
ETL的流程架構包括數據源,ODS緩沖層,ODS統一視圖層,數據倉庫(DW),數據集市(DM)
1)源數據抽取到ODS層
ODS按功能劃分ODS緩沖層和ODS統一視圖層。ODS緩沖層是數據臨時存儲的位置,與源數據保持一致。ODS統一視圖層提供數據視圖,數據源于緩沖層。源數據抽取到ODS層分為全量和增量,顧名思義。全量抽不過濾,增量抽粗略過濾。
2)ODS緩沖層抽取到統一信息視圖層
除第一次全量抽取后繼增量抽取,按照時間戳或者版本號。
3)ODS統一信息視圖層抽取到DW
數倉數據涵蓋很多,顆粒度低,細節高,定期刷新給數據集市提供更新的數據。
4)DW抽取到數據集市
特定的集合,是報表的數據來源。數倉的數據整合或計算然后被抽取到數據集市。
上述整個流程需要ETL,需要建立映射,以及ETL調度。
數據的加載:可以已時間戳作為加載條件;也可以以源表日志的信息作為對目標表作為數據加載的條件;也可以通過全表的方式進行加載,通過全表對目標表的每條數據進行比較,目標表不存在主鍵則插入,主鍵存在,比較其他字段,不同則進行更新。全表對比不需要對源數據進行修改,安全性高,但流程復雜,抽取效率低。
總結
以上是生活随笔為你收集整理的商业智能,数据仓库,ETL,数仓调度工具informatica介绍手账(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里1688产品图片和视频资料下载
- 下一篇: [总结]mac pro 提示“USB设备