【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )
文章目錄
- 一、數(shù)據(jù)倉庫中的 數(shù)據(jù)組織級別
- 二、數(shù)據(jù)倉庫中的 元數(shù)據(jù)
- 三、粒度 ( 根據(jù) 數(shù)據(jù)綜合程度 劃分粒度 )
- 四、粒度 ( 根據(jù) 樣本采樣率 劃分粒度 )
- 五、分割
- 六、數(shù)據(jù)倉庫組織形式
一、數(shù)據(jù)倉庫中的 數(shù)據(jù)組織級別
數(shù)據(jù)倉庫中的數(shù)據(jù)組織 級別 : 下面 細(xì)節(jié)程度 由低到高 逐一解析 ;
- 早期細(xì)節(jié)級別數(shù)據(jù) : 之前的一段時間的歷史數(shù)據(jù) ;
- 當(dāng)前細(xì)節(jié)級別數(shù)據(jù) : 最近階段的歷史數(shù)據(jù) ;
- 輕度綜合級別數(shù)據(jù) : 以 天 , 星期 , 月 , 為時間單位綜合數(shù)據(jù) ;
- 高度綜合級別數(shù)據(jù) : 以 季度 , 年 , 為時間單位綜合數(shù)據(jù) ;
引入 “力度” 概念 : 上述介紹的 數(shù)據(jù)的不同的綜合級別 , 稱為力度 ;
- 力度效果 : 力度越大 , 細(xì)節(jié)成都越低 , 綜合程度越高 ;
- 級別劃分 : 數(shù)據(jù)的綜合級別的劃分 , 是根據(jù)力度進行劃分的 ;
數(shù)據(jù)倉庫中的數(shù)據(jù)組織 涉及概念 : 粒度 與 分割 , 數(shù)據(jù)倉庫數(shù)據(jù)組織形式 , 數(shù)據(jù)倉庫數(shù)據(jù)追加 ;
二、數(shù)據(jù)倉庫中的 元數(shù)據(jù)
元數(shù)據(jù) ( MetaData ) :
- 概念 : 關(guān)于 “數(shù)據(jù)” 的 數(shù)據(jù) ;
- 數(shù)據(jù)庫 -> 數(shù)據(jù)倉庫 : 從 操作型環(huán)境 向 數(shù)據(jù)倉庫環(huán)境 轉(zhuǎn)換 , 建立的元數(shù)據(jù) ; 包含 元數(shù)據(jù)項名 , 屬性 , 屬性在數(shù)據(jù)倉庫中的轉(zhuǎn)換 ;
- 數(shù)據(jù)倉庫 -> 前端應(yīng)用 映射 : 多維數(shù)據(jù)模型 與 前端工具 之間建立的映射 , 該映射相關(guān)的數(shù)據(jù) 是 元數(shù)據(jù) ;
三、粒度 ( 根據(jù) 數(shù)據(jù)綜合程度 劃分粒度 )
根據(jù) “數(shù)據(jù)綜合程度” 劃分粒度 : “粒度” 是對 數(shù)據(jù)倉庫 中的數(shù)據(jù) 的 綜合程度高低 進行的度量 ;
- 粒度與綜合 : 粒度越小 , 數(shù)據(jù)細(xì)節(jié)程度越高 , 數(shù)據(jù)的綜合程度越低 ;
- 多粒度查詢 : 數(shù)據(jù)倉庫中一般查詢是多粒度查詢 , 不同的粒度 , 能回答不同的查詢 ;
不同粒度查詢舉例 : 粒度大小影響數(shù)據(jù)庫查詢的效率 ;
-
細(xì)節(jié)查詢 : 如果要查詢 AAA 是否在昨天下午 333 點給 BBB 打過電話 , 此時應(yīng)該直接查詢該時間點的數(shù)據(jù) ;
-
以 “年” 為粒度查詢 : 如果要查詢 AAA 去年通話時間 , 就需要查詢以 “年” 為單位的通話數(shù)據(jù) ;
-
以 “十年” 為粒度查詢 : 如果要預(yù)測 AAA 未來幾年的通話時間 , 就需查詢 AAA 所有的通話數(shù)據(jù)記錄 , 然后做出預(yù)測 ;
四、粒度 ( 根據(jù) 樣本采樣率 劃分粒度 )
根據(jù) “采樣率高低” 劃分粒度 :
- 樣本數(shù)據(jù)庫 : 以 一定的采樣率 從 細(xì)節(jié)數(shù)據(jù) / 輕度綜合數(shù)據(jù) 中抽取出的 數(shù)據(jù)子集 , 稱為樣本數(shù)據(jù)庫 ;
- 樣本數(shù)據(jù)庫 “作用” : 使用該 數(shù)據(jù)子集 進行 模擬分析 ;
- 抽象方式 : 隨機抽取 ;
"樣本數(shù)據(jù)庫" 優(yōu)點 :
- 效率 : 查詢分析 效率 高 ;
- 降低數(shù)據(jù)量 : 如果源數(shù)據(jù)的數(shù)據(jù)量很大 , 抽樣數(shù)據(jù)的量可以降低 ;
- 準(zhǔn)確度高 : 分析結(jié)果的誤差很小 , 準(zhǔn)確度高 ;
- 主要因素 : 這種分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;
兩種形式的 “粒度” 舉例 : “商品” 主題 ;
- 時間段上信息綜合粒度 : 銷售綜合表 , 采購綜合表 , 是 根據(jù) “數(shù)據(jù)綜合程度” 劃分的粒度 ;
- 不同時間點的采樣粒度 : 庫存信息表 , 是 根據(jù) “采樣率高低” 劃分的粒度 ;
五、分割
分割 : 將 完整的數(shù)據(jù)集 分散到 各自的物理單元 中去 , 以便能 分別獨立處理 ;
- 分割結(jié)果 : 數(shù)據(jù) 分割后的 數(shù)據(jù)單元 , 稱為 分片 ;
- 分割目的 : 提高效率 ;
- 分割作用 : 分析 相關(guān)性 數(shù)據(jù)集合 , 將 具有相關(guān)性 的數(shù)據(jù) 組織到一起分析 , 提高分析效率 ;
分割標(biāo)準(zhǔn) :
- 方便進行如下操作 : 重構(gòu) , 索引 , 重組 , 恢復(fù) , 監(jiān)控 , 掃描 ;
- 業(yè)務(wù)領(lǐng)域
- 日期
- 地域
- 多個分割標(biāo)準(zhǔn)組合
"分割" 示例 : 對 保險行業(yè)數(shù)據(jù) 進行分割 ;
- 總的數(shù)據(jù)集 : 333 年的 車險 , 壽險 , 健康險 , 財產(chǎn)險 , 意外險 數(shù)據(jù) ;
- 分割標(biāo)準(zhǔn) : 按照 “時間” , 和 “險種” , 進行分割 ;
- 分片詳情 : 分片個數(shù)為 3×5=153 \times 5 = 153×5=15 個數(shù)據(jù)分片 ;
| 202020202020 年 | 分片 111 | 分片 222 | 分片 333 | 分片 444 | 分片 555 |
| 201920192019 年 | 分片 666 | 分片 777 | 分片 888 | 分片 999 | 分片 101010 |
| 201820182018 年 | 分片 111111 | 分片 121212 | 分片 131313 | 分片 141414 | 分片 151515 |
數(shù)據(jù)分片使用方式 :
-
處理單獨數(shù)據(jù)分片 : 如果只分析 201920192019 年的車險數(shù)據(jù) , 只需要分析 分片 666 中的數(shù)據(jù)即可 , 每個分片的數(shù)據(jù)都可以獨立處理 ;
-
合并若干數(shù)據(jù)分片 : 如果分析 202020202020 年的健康險 和 意外險 數(shù)據(jù) , 那么需要 將 分片 222 和 分片 555 合并起來 , 進行分析 ;
六、數(shù)據(jù)倉庫組織形式
數(shù)據(jù)倉庫組織形式 :
- 簡單堆積文件
- 輪轉(zhuǎn)綜合文件
- 簡化直接文件
- 連續(xù)文件
簡單堆積文件 :
- 概念 : 將數(shù)據(jù)庫中 提取加工 的數(shù)據(jù) , 直接積累存儲 ;
- 操作 : 來一個存放一個 , 按照時間先后順序存放 , 堆積 ;
輪轉(zhuǎn)綜合文件 :
- 概念 : 將 數(shù)據(jù)的存儲單位 , 分成 若干級別 , 每個級別有有限個指定的數(shù)據(jù) ;
- 數(shù)據(jù)形式 : 一定時間段的綜合數(shù)據(jù) , 稱為 輪轉(zhuǎn)記錄 ;
- 優(yōu)點 : 結(jié)構(gòu)簡單 , 數(shù)據(jù)量比 “簡單堆積文件” 少 ;
- 缺點 : 綜合數(shù)據(jù) , 會損失數(shù)據(jù)細(xì)節(jié) , 越久遠(yuǎn)的歷史數(shù)據(jù) , 數(shù)據(jù)細(xì)節(jié)損失的越多 ;
- 操作 : 夠一個時間段 , 就將指定長度的數(shù)據(jù)綜合在一起 ; 每次綜合都會損失一定的數(shù)據(jù)細(xì)節(jié) ;
- 示例 : 如果數(shù)據(jù)積累夠 1 天 , 直接綜合成一天的數(shù)據(jù) ; 如果數(shù)據(jù)積累夠 30 天 , 直接綜合成一個月的數(shù)據(jù) ; 如果數(shù)據(jù)積累夠 12 個月 , 直接綜合成一年的數(shù)據(jù) , 小時的數(shù)據(jù)不超過 24 個 , 天的數(shù)據(jù)不超過 30 個 , 月的數(shù)據(jù) 不超過 12 個 ;
簡化直接文件 :
- 概念 : 按照一定時間間隔 , 對數(shù)據(jù)庫采樣 ;
- 快照 : 每隔一定時間 , 做一個數(shù)據(jù)庫快照 , 存儲該快照 , 與 “簡單堆積文件” 類似 ;
- 示例 : 周一對數(shù)據(jù)做一個快照 , 周二在做一個快照 , 每天都做一個數(shù)據(jù)庫快照 , 存儲下來 ;
- 缺點 : 浪費存儲空間 ;
連續(xù)文件 : 在上述 “簡化直接文件” 快照的基礎(chǔ)之上 , 進行增量更新 , 只更新對比后的差異數(shù)據(jù) ;
- 概念 : 兩個連續(xù)簡化的直接文件 , 對比兩個文件的差異 , 生成連續(xù)文件 ;
- 連續(xù)文件 + 新的簡單文件 = 新的連續(xù)文件
總結(jié)
以上是生活随笔為你收集整理的【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【DBMS 数据库管理系统】数据仓库特征
- 下一篇: 【DBMS 数据库管理系统】数据仓库中