【DBMS 数据库管理系统】数据库 -> 数据仓库 ( 数据处理类型 | 传统数据库 | 数据库不适用于分析型应用 )
文章目錄
- 一、數據處理類型
- 二、傳統數據庫技術
- 三、傳統數據庫 不適用于 分析型 ( DSS 決策支持系統 ) 應用 原因
- 四、事務性處理 與 分析型處理 性能特性不同
- 五、數據集成問題
- 六、數據集成問題 : 數據分散原因
- 七、數據集成問題 : 數據倉庫引入
- 八、數據動態集成問題
- 九、歷史數據問題
- 十、數據綜合問題
一、數據處理類型
數據處理類型 :
① 操作型處理 : 又稱為 事務型處理 ;
- 處理內容 : 與業務活動相關 , On-Line Transaction Processing ( OLTP ) 聯機事務處理過程 ;
- 主要作用 : 對數據聯機的日常操作 , 對一個或一組數據進行查詢 , 修改 ; 關注 響應時間 , 數據安全性 , 完整性 ;
- 示例 : 與業務相關的操作 ( 如網上購物 , 各種網絡應用等 ) , 要求反應時間快 , 占用資源少 ;
② 分析型處理 :
- 處理內容 : 與決策活動相關 , OLAP 聯機分析處理過程 ;
- 主要作用 : 用于管理人員決策分析 , DSS 決策支持系統 , EIS 企業信息系統 , 多維分析 , 需要訪問大量歷史數據 ( 5 ~ 10 年 時間跨度大 / 企業內外 數據范圍廣 ) ;
- 示例 : 由管理人員使用 , 如 CEO , CFO 等 , 對企業數據進行分析 , 然后做出決策 ;
上述兩種操作差異巨大 , 操作型處理 和 分析性處理 的數據必須 分離存放 ;
在數據倉庫出現之前 , 上述兩種處理類型都放在數據庫中進行處理 , 其中分析性處理效果不好 , 因此提出不同的數據類型 , 放在不同的數據載體中 :
- 操作型 : OLTP 聯機事務處理 , 數據放在 數據庫 中 ;
- 分析性 : OLAP 聯機分析處理 , 數據放在 數據倉庫 中 ;
二、傳統數據庫技術
傳統數據庫技術 :
- 數據資源 : 單一的數據資源 , 數據庫 ;
- 進行的處理 : 事務處理 , 批處理 , 決策分析 , 等各種類型數據處理工作 ;
不同數據處理有不同的要求 : 上述數據處理有不同的特點 ;
- 反應時間 : 有的要求反應執行時間快 , 有的不要求實時性 ;
- 返回數據量 : 有的需要獲取大量數據 , 有的只需要返回一個值 ;
傳統數據庫弊端 : 單一的數據組織方式 ( 傳統數據庫 ) , 無法滿足數據處理多樣化需求 ;
傳統數據庫 重要性 :
- 數據庫是所有 信息系統基礎 ;
- 主要用于 事務處理方面 ;
- 發展階段 : ① 網狀數據庫 , ② 層次數據庫 , ③ 關系數據庫 ;
不適合分析型應用 : 傳統數據庫很重要 , 扔發揮著重大作用 , 但是在分析型應用中 , 使用數據庫存儲數據不太適合 ;
數據庫 不適合 分析型應用 ( DSS ) :
-
數據庫的三級模式 : 內模式 , 外模式 , 模式 ;
-
外模式 : 任何數據庫應用都是 建立在外模式之上的 , 需要進行編程實現 ;
-
數據庫對 DSS 支持有限 : 傳統數據庫 的 即席查詢功能 , 支持 DSS ( 分析型應用 ) 的需求 , 但是支持的不是很好 ;
-
效率低下 : DSS ( 分析型應用 ) 關注 模型 與 方法 , 沒有 在數據庫管理系統層面上 的支持 ; 每個應用都需要編寫一個程序 , 幾百上千次分析決策 , 就需要編寫對應的應用程序 , 這樣效率很低下 ;
-
數據倉庫引入 : 如果有一個系統已經將上述 模型 與 方法 實現好 , 可以支持成千上萬個應用 , 不用為每個單獨的應用編寫程序 ; 這里就引入了數據倉庫 ;
三、傳統數據庫 不適用于 分析型 ( DSS 決策支持系統 ) 應用 原因
事務處理環境 不適用于 分析型 ( DSS - Decision Support System 決策支持系統) 應用原因 :
- 事務性處理 與 分析型處理 性能特性不同
- 數據集成問題
- 數據動態集成問題
- 歷史數據問題
- 數據的綜合問題
四、事務性處理 與 分析型處理 性能特性不同
用戶行為模式 :
- 事務型處理 : 數據存取頻率高 , 每次操作要求時間短 ;
- 分析型處理 : DSS 運行時間長 , 消耗資源多 , 運行頻率低 ;
五、數據集成問題
DSS 分析型應用需要的數據 :
- DSS 數據 : 需要全面 , 集成 的數據 , 時間跨度很長 , 來源很多 , 企業內部數據 , 外部數據 , 競爭對手數據 ;
- 事務處理數據 : 只有當前業務部門數據 , 企業范圍數據沒有集成 , 需要額外開發程序收集這些數據集成起來 ; 數據是分散的 ;
六、數據集成問題 : 數據分散原因
數據分散原因 : ① 事務處理應用分散 , ② 蜘蛛網問題 , ③ 數據不一致問題 , ④ 外部數據 和 非結構化數據 ;
① 事務處理應用分散 : 應用本身就是分散的
-
應用獨立 : 企業的 每個應用的 事務處理 都是相互獨立的 ;
-
設計針對當前問題 : 設計系統時 , 每個系統只是針對當前問題而設計 , 如財務系統 , 只針對財務問題 , 客戶管理系統 , 只針對客戶管理問題 ;
-
不考慮后續問題 : 設計時 , 不考慮以后可能出現的新問題 ;
② 蜘蛛網問題 : 分析型應用中 , 需要抽取數據 , 那就涉及到各種數據抽取程序 , 不同的用戶設計的抽取程序不同 , 導致 :
- 抽取數據的時間不同
- 抽取數據算法不同
- 抽取數據級別不同
- 參考的外部數據不同
結果導致針對相同的問題 , 不同的節點產生不同的分析結果 ;
③ 數據不一致問題 : 多個應用之間數據格式不一致 ;
- 數據庫相同字段數據類型不同 , 如標識 ID , 有使用 Int 類型 , 有使用 String 類型的 ;
- 數據庫相同字段數據名稱不同 , 學生名稱有使用 name 作為字段名稱 , 有使用 studentName 作為字段名 ;
- 字段名稱類型相同 , 含義不同 , name 作為學生名稱 , 學校名稱 等 ;
④ 外部數據 和 非結構化數據 : 使用爬蟲爬下來的文本 , 圖片 , 視頻 等信息 , 結構形式各不相同 ;
七、數據集成問題 : 數據倉庫引入
DSS 對數據集成需求迫切 :
- 工作繁雜 : 數據集成工作繁雜 , 如果全部由開發者實現 , 負擔很大 ;
- 效率低下 : 如果每次分析都要集成一次 , 處理效率很低 ;
DSS ( Decision Support System ) 決策支持系統 對數據集成的需求 , 是數據倉庫出現的最重要的原因 ;
八、數據動態集成問題
數據動態集成問題 :
- 靜態集成 : 集成后 , 數據與數據源不再進行關聯 ; 之后數據源改變 , 集成的數據不再變化 ;
- 動態集成 : 集成后 , 每隔一定周期 , 就要同步一次集成數據 ;
九、歷史數據問題
歷史數據問題 :
-
事務處理系統 : 數據庫中 , 存儲的都是當前數據 , 或 短期數據 ;
-
分析處理系統 : 數據倉庫中 , 需要歷史數據 ,
十、數據綜合問題
DSS 決策支持系統 分析的對象 :
- 不分析 細節數據
- 分析前 先要對細節數據進行 不同程度的 綜合
事務處理系統 分析的對象 :
- 主要處理 細節數據
- 不進行數據 綜合 , 該系統下降綜合作為數據冗余 , 限制綜合 ;
總結
以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据库 -> 数据仓库 ( 数据处理类型 | 传统数据库 | 数据库不适用于分析型应用 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【运筹学】对偶理论 : 对偶问题引入 (
- 下一篇: 【DBMS 数据库管理系统】数据仓库 (