三十三、数据仓库的概述
1. 數(shù)據(jù)倉庫的概述
1.1 數(shù)據(jù)倉庫的基本內(nèi)容
數(shù)據(jù)倉庫泛化、合并多維空間的數(shù)據(jù)。構(gòu)造數(shù)據(jù)倉庫涉及數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)變換,可以看作數(shù)據(jù)挖掘的一個(gè)重要預(yù)處理步驟。此外,數(shù)據(jù)倉庫提供聯(lián)機(jī)分析處理(OLAP)工具,用于各種粒度的多維數(shù)據(jù)的交互分析,有利于有效的數(shù)據(jù)泛化和數(shù)據(jù)挖掘。數(shù)據(jù)倉庫的基本內(nèi)容包括:
- 什么是數(shù)據(jù)倉庫
- 操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
- 分離的數(shù)據(jù)倉庫
- 數(shù)據(jù)倉庫模型
- 數(shù)據(jù)提取變換和轉(zhuǎn)入
- 元數(shù)據(jù)庫
2. 什么是數(shù)據(jù)倉庫?
2.1 數(shù)據(jù)倉庫的基本概念
- 數(shù)據(jù)倉庫已有多種定義方式,很難給出一種嚴(yán)格的定義。通俗地講,數(shù)據(jù)倉庫是一種數(shù)據(jù)庫,它與單位的操作數(shù)據(jù)庫分別維護(hù)。數(shù)據(jù)倉庫系統(tǒng)允許將各種應(yīng)用集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺,對信息處理提供支持。
2.2 數(shù)據(jù)倉庫的關(guān)鍵特征
數(shù)據(jù)倉庫可以看成是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理的決策過程。
- 面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如果顧客、供應(yīng)商、產(chǎn)品和銷售組織。
- 集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄集成在一起。
- 時(shí)變的:數(shù)據(jù)存儲從歷史的角度提供信息。數(shù)據(jù)倉庫種的關(guān)鍵結(jié)構(gòu)都隱式或顯示的包含時(shí)間元素。
- 非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的一個(gè)用數(shù)據(jù)。
3 數(shù)據(jù)的倉庫的基本內(nèi)容之二
3.1 操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
- 聯(lián)機(jī)操作數(shù)據(jù)庫(OLTP)的主要任務(wù)式執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。
- 用不同的格式組織和提供數(shù)據(jù),以便滿足不同用戶的形形色色的需求,這種系統(tǒng)稱做聯(lián)機(jī)分析處理(OLAP)。
3.2 分離的數(shù)據(jù)倉庫
- 操作數(shù)據(jù)庫中存放了大量的數(shù)據(jù)。為什么不直接在這種數(shù)據(jù)庫上進(jìn)行聯(lián)機(jī)分析處理,而是另外花費(fèi)時(shí)間和資源去構(gòu)造分離的數(shù)據(jù)倉庫?
- 分離的主要原因是提高兩個(gè)系統(tǒng)的性能。
- 數(shù)據(jù)倉庫的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計(jì)算,可能需要特殊的基于多維視圖的數(shù)據(jù)
- 織、存取方法和實(shí)現(xiàn)方法。在操作數(shù)據(jù)庫上處理OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能。
- 數(shù)據(jù)倉庫與操作數(shù)據(jù)庫分離式由于這兩種系統(tǒng)的中的數(shù)據(jù)結(jié)構(gòu)、內(nèi)容和用法都不相同。
數(shù)據(jù)倉庫的三層體系結(jié)構(gòu)
- 底層是倉庫數(shù)據(jù)庫服務(wù)器:通常是一個(gè)關(guān)系數(shù)據(jù)庫系統(tǒng)。
- 中間層是OLAP服務(wù)器
- 頂層是前端客戶層,它包括查詢和報(bào)告工具,分析工具/或數(shù)據(jù)挖掘工具
4 數(shù)據(jù)倉庫的基本內(nèi)容之三
4.1 數(shù)據(jù)倉庫的模型
從結(jié)構(gòu)的角度看,有三種數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫。
- 企業(yè)倉庫:企業(yè)倉庫搜集了關(guān)于主題的所有信息,跨越整個(gè)企業(yè)。它提供了企業(yè)范圍內(nèi)的數(shù)據(jù)集成,通常來自一個(gè)或多個(gè)操作系統(tǒng)數(shù)據(jù)庫系統(tǒng)或外部信息提供者,并且是多功能的。
- 數(shù)據(jù)集市:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對于特定的用戶群是有用的。例如銷售數(shù)據(jù)集可能限定其主題為顧客、商品和銷售。
- 虛擬倉庫:虛擬倉庫是操作數(shù)據(jù)庫上視圖的集合。為了有效地的處理查詢,只有一些可能的匯總視圖被物化。
4.2 數(shù)據(jù)提取、變換和裝入
- 數(shù)據(jù)提取:通常由多個(gè)異構(gòu)的外部數(shù)據(jù)源收集數(shù)據(jù)。
- 數(shù)據(jù)清理:檢測數(shù)據(jù)中的錯(cuò)誤,可能時(shí)并訂正它們。
- 數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉庫格式。
- 裝入:排序、匯總、合并、計(jì)算視圖、檢查完整性,并建立索引和劃分。
- 刷新:傳播由數(shù)據(jù)源到數(shù)據(jù)倉庫的更新。
4.3 元數(shù)據(jù)庫
- 元數(shù)據(jù)時(shí)定義倉庫對象的數(shù)據(jù)。元數(shù)據(jù)庫在數(shù)據(jù)倉庫體系結(jié)構(gòu)的底層。-
- 元數(shù)據(jù)庫應(yīng)當(dāng)包括以下內(nèi)容:
- 數(shù)據(jù)倉庫結(jié)構(gòu)的描述:包括倉庫模式、視圖、維、分層結(jié)構(gòu)等
- 操作元數(shù)據(jù):數(shù)據(jù)信息、數(shù)據(jù)流通、管理信息
- 用于匯總的算法:包括度量和維定義算法
- 由操作環(huán)境到數(shù)據(jù)倉庫的映射
- 關(guān)于系統(tǒng)性能的數(shù)據(jù)
庫模式、視圖、維、分層結(jié)構(gòu)等 - 操作元數(shù)據(jù):數(shù)據(jù)信息、數(shù)據(jù)流通、管理信息
- 用于匯總的算法:包括度量和維定義算法
- 由操作環(huán)境到數(shù)據(jù)倉庫的映射
- 關(guān)于系統(tǒng)性能的數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的三十三、数据仓库的概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三十二、电子商务服务推荐模型构建
- 下一篇: 三十四、数据仓库的建模