【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )
文章目錄
- 一、數據倉庫簡介
- 二、操作型數據與分析型數據對比
- 三、數據倉庫 特征 與 定義
- 四、特征一 : 面向主題 數據組織方式
- 五、面向應用 數據組織方式
- 六、面向主題 組織數據
- 七、數據 從 面向應用 轉為 面向主題
- 七、數據倉庫中的主題實現
- 八、基于關系數據庫
- 九、面向主題的數據組織
一、數據倉庫簡介
數據倉庫 簡介 :
-
用途 : 作為 DSS ( Decision Support System 決策支持系統 ) 服務基礎的 分析型數據庫 ;
-
數據 : 用于存儲 大量的 只讀數據 ;
-
應用場景 : 為管理者 決策 提供相關信息 ;
數據倉庫 與操作系統分離 , 基于標準的企業模型集成 , 帶時間屬性 , 面向主題 , 不可更新 的 數據集合 ;
二、操作型數據與分析型數據對比
| ① 數據粒度 | 細節的 | 綜合的 |
| ② 數據時效 | 存儲瞬間準確 | 過去的歷史數據 |
| ③ 是否只讀 | 可更新 | 不可更新 |
| ④ 需求可知 | 操作時實現知道需求 | 操作時事先不知道需求 |
| ⑤ 生命周期 | 生命周期符合 SDLC | 完全不同的生命周期 |
| ⑥ 性能要求 | 性能要求高 | 性能要求低 |
| ⑦ 操作大小 | 同一時刻操作一個單元的數據 | 同一時刻操作一個集合的數據 |
| ⑧ 數據大小 | 單詞操作數據量小 | 單詞操作數據量大 |
| ⑨ 驅動力量 | 事務驅動 | 分析驅動 |
| ⑩ 具體用途 | 面向應用 | 面向分析 |
| ? 應用場景 | 支持日常操作 | 支持管理需求 |
三、數據倉庫 特征 與 定義
數據倉庫特征 :
- 面向主題
- 集成
- 不可更新
- 隨時間不斷變化
數據倉庫定義 : 數據倉庫 是 用于 更好地 支持 企業 / 組織 決策分析處理 , 面向主題的 , 集成的 , 不可更新的 , 隨時間不斷變化的 數據集合 ;
四、特征一 : 面向主題 數據組織方式
主題 :
- 主題是一個抽象 : 使用該抽象 , 在較高層次上 , 將企業信息系統中的數據 , 進行綜合 , 歸類 , 并進行分析利用 ;
- 邏輯意義 : 企業中 某個 宏觀分析領域 涉及的分析對象 ;
較高層次 :
- 層次較高 : 相對于 面向應用 的 數據組織方式 , 層次較高
- 抽象級別 : 按照主題進行 數據組織方式 , 數據的抽象級別較高
面向主題 數據組織方式 特點 :
- 描述 : 對 分析對象的數據 的 , 完整的 , 一致的 , 描述 ;
- 內容 : 完整 , 統一 , 刻畫 , 各個分析對象 , 涉及的數據 , 及數據對象之間的關系 ;
五、面向應用 數據組織方式
面向應用 數據組織方式 特點 :
- 調查收集需求 : 需要詳細調查企業中相關組織 , 部門 , 收集數據庫 基礎數據 , 及 數據的處理過程 ; ( 這是在需求分析階段進行的工作 )
- 組織數據依據 : 反映 企業內部的組織結構 , 業務活動特點 ;
- 數據組織本質 : 反映 組織 , 部門 , 內部數據 動態特征 , 每個部門的業務處理的 : 輸入 , 處理 , 輸出 , 的數據
- 數據組織方式 : 按 實際應用的 業務處理流程 組織 ;
- 數據組織目的 : 提供 OLTP 業務處理的速度 , 和 準確性 ;
- 存儲介質改變 : OLTP 應用只是將傳統的業務活動 , 從紙質介質 , 轉為電子信息 , 系統中的數據 與 現實中被替代的紙質文檔對應 ;
上述 OLTP 面向應用的數據組織 , 數據 , 與 數據處理 是分開的 , 一個客觀實體的數據 , 與不同的應用場景捆綁 , 無法統一 , 分散存儲在不同的表中 , 如商品信息 , 分別存儲在采購子系統 , 銷售子系統 , 庫存子系統中 , 數據被分開存儲 ;
面向應用 數據組織方式 缺點 : 數據抽象程度太低 , 數據 與 應用沒有分離 ;
引入數據倉庫 : 應該將 數據 從 數據處理 中抽象出來 , 組成和具體應用獨立的 數據倉庫 ;
面向應用 數據組織方式 優點 :
- 操作性好 : 將 數據庫 與 企業的業務邏輯 對應 , 可操作性高 ;
- 方便轉換 : 方便 企業 將原有的紙質業務 , 轉為計算機處理的業務 ;
- 支持 OLTP 應用
六、面向主題 組織數據
面向主題 組織數據 步驟 :
① 抽取主題 : 按照 OLAP 數據分析 的要求 , 確定抽取的主題 ;
② 主題內容 : 確定 該抽取的主題 , 包含的數據內容 ;
主題抽取 示例 :
主題 : 商場的商品采購 ;
OLTP 數據 : 在 OLTP 數據庫中 , 存儲有 訂單 , 訂單詳情 , 供應商 , 等數據庫表 , 清晰的展示了 商品采購時 所涉及業務的數據內容 , 上述 數據的組織方式 是 面向應用 數據組織方式 ;
OLAP 數據需求 :
- 分析對象 : 在數據倉庫中 , 需求是分析供應商的詳細數據 , 通過數據分析處理 , 選出優質供應商 , 供應商是主要的分析對象 ;
- 忽略數據 : 具體的訂單情況 , 清單詳情 , 是需要忽略的 , 數據分析時 , 不需要分析采購的具體細節 , 如送貨周期 , 送貨時間 , 交接人員 等 , 這些都是操作型數據 , 分析時不需要關心這些細節數據 ;
- 數據組合 : 只抽取供應商的數據是不夠的 , 還需要其它數據庫中的部分數據 , 有些數據需要丟棄 , 有些數據需要抽取 , 重新組合成新的數據 ;
針對與商場 , 面向主題創建 數據倉庫 , 抽取出如下三個主題 : ① 商品 , ② 供應商 , ③ 顧客 ;
將 444 個子系統 , 轉為了 333 個主題 ;
- OLTP 子系統 : 固有信息 , 采購子系統 , 銷售子系統 , 庫存子系統 ;
- OLAP 主題 : 商品 , 供應商 , 顧客 ;
以 “商品” 主題為例 : 商品主題包含以下數據 :
- 商品本身信息 : 商品號 , 商品價格 , 商品顏色 ; ( 從商品固有信息中抽取 )
- 商品采購信息 : 商品號 , 供貨商 , 采購價格 ; ( 從采購子系統中抽取 )
- 商品銷售信息 : 商品號 , 零售價 , 顧客信息 ; ( 從銷售子系統中抽取 )
- 商品庫存信息 : 商品號 , 庫存量 , 保存時間 ; ( 從庫存子系統中抽取 )
七、數據 從 面向應用 轉為 面向主題
數據 從 面向應用 轉為 面向主題 轉換過程 :
1 . 丟棄數據 : 一些與分析對象無關的信息 , 直接丟棄 ;
2 . 組織數據 : 與分析對象有關的信息 , 可能分布與各個子系統中 , 將這些數據重新組織起來 , 形成針對該分析對象的完整描述 , 放入一個主題中 ;
3 . 內容重疊 : 主題間可能存在內容重疊 , 這些 重疊的信息 反映了主題之間的聯系 ;
- 邏輯重疊 : 主題邏輯上的重疊 , 區別于相同的數據的物理存儲重疊 ;
- 細節重疊 : 數據在不同的主題上綜合方式不同 ;
- 重疊方式 : 主題間的重疊可能是多重重疊 , 如 333 個主題間相互重疊 , 不是兩兩重疊 ;
七、數據倉庫中的主題實現
數據倉庫中的主題實現有兩種方式 :
- ① 基于多維數據庫 : 以多維數組的形式存儲 ; ( 處理數據稀疏問題 )
- ② 基于關系數據庫 : 以表的形式存儲 ;
八、基于關系數據庫
"主題" 基于關系數據庫 :
- 主題數據組成 : 用一組 關系數據庫 中的關系表 中的數據 表示主題 ;
- 公共碼鍵 : 每個 關系表 都有一個 公共碼鍵 作為 主屬性 , 就是 id ;
- 主題數據聯系方式 : 主題下的 關系表 數據 , 使用公共碼鍵 進行關聯 ;
公共碼鍵示例 :
-
"商品" 主題 : 以商品主題為例 ;
-
公共碼鍵 : 商品號 , 在所有的商品主題下的表中 , 都帶有公共碼鍵 , 商品號 ;
-
商品表 : 商品號 , 商品名稱 , 顏色 , 形狀 , 零售價 , …
-
采購表 : 商品號 , 供應商 , 采購日期 , 進貨價 , …
-
庫存表 : 商品號 , 庫存量 , 庫存時間 , …
主題中 關系表 的存儲 :
- 低頻訪問數據存儲 : 不經常訪問的數據 , 如歷史數據 , 細節數據 等查詢概率低的數據 , 放在普通磁盤中存儲 ;
- 高頻訪問數據存儲 : 經常訪問的數據 , 放在高速訪問存儲設備中 , 如 固態硬盤 ;
九、面向主題的數據組織
主題域 : 主題域是 完備的分析領域 , 需要具備以下兩個特征 ;
- 獨立性 : 主題域 必須有獨立的主題 , 有明確的界限 , 表示某數據屬于 / 不屬于 該主題 ;
- 完備性 : 主題中包含的 主題對象 的數據必須完整 , 分析處理所用到的數據 , 都包含在該主題中 ;
主題數據組織 是 在較高層級 對數據進行抽象 ; 主題數據組織 獨立于 數據處理邏輯 ; 在該 主題數據 基礎上 , 可以快速開發新的 OLAP 應用 ;
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【DBMS 数据库管理系统】数据库 ->
- 下一篇: 【DBMS 数据库管理系统】数据仓库特征