大数据开发实战:数据仓库技术
1、OLTP和OLAP
OLTP的全稱(chēng)是 Online Transaction Processing, OLTP主要用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)來(lái)進(jìn)行事務(wù)處理。OLTP最核心的需求是單條記錄的高效快速處理,索引技術(shù)、
分庫(kù)分表等最根本的訴求就是解決此問(wèn)題。
OLAP的全稱(chēng)是 Online Analytical Processing,OLAP能夠處理和統(tǒng)計(jì)大量的數(shù)據(jù),不像OLTP數(shù)據(jù)庫(kù)需要考慮數(shù)據(jù)的增刪改查和并發(fā)控制等,OLAP數(shù)據(jù)一般只需要處理數(shù)據(jù)查詢(xún)請(qǐng)求,
數(shù)據(jù)導(dǎo)入批量導(dǎo)入的,因此通過(guò)列存儲(chǔ),列壓縮和位圖索引等技術(shù)可以大大加快響應(yīng)請(qǐng)求的速度。
2、OLTP和OLAP數(shù)據(jù)的簡(jiǎn)單對(duì)比
3、數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)設(shè)計(jì)
離線數(shù)據(jù)倉(cāng)庫(kù)通常基于維度建模理論來(lái)構(gòu)建,離線數(shù)據(jù)倉(cāng)庫(kù)通常從邏輯上進(jìn)行分層,分詞主要出于以下考慮:
1、隔離性:用戶(hù)使用的應(yīng)該是數(shù)據(jù)團(tuán)隊(duì)精心加工后的數(shù)據(jù),而不是來(lái)自于業(yè)務(wù)系統(tǒng)的原始數(shù)據(jù),這樣做的好處一是,用戶(hù)使用的是精心準(zhǔn)備過(guò)的、規(guī)范的、干凈的、從業(yè)務(wù)視角的數(shù)據(jù)。
非常容易理解和使用。二是如果上游業(yè)務(wù)系統(tǒng)發(fā)生變革甚至重構(gòu)(比如表結(jié)構(gòu)、字段、業(yè)務(wù)含義等),數(shù)據(jù)團(tuán)隊(duì)會(huì)負(fù)責(zé)處理所有這些變化,最小化對(duì)下游用戶(hù)的影響。
2、性能和可為維護(hù)性: 專(zhuān)業(yè)的人做專(zhuān)業(yè)的事,數(shù)據(jù)分層使得數(shù)據(jù)的加工基本都在數(shù)據(jù)團(tuán)隊(duì),從而相同的業(yè)務(wù)邏輯不用重復(fù)執(zhí)行,節(jié)省了相應(yīng)的存儲(chǔ)和計(jì)算開(kāi)銷(xiāo)。
此外數(shù)據(jù)分層也使得數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)變得清晰和便捷,每層只負(fù)責(zé)各自的任務(wù),某層的數(shù)據(jù)加工出現(xiàn)問(wèn)題,只需要修改該層即可。
3、規(guī)范性:對(duì)于一個(gè)公司和組織來(lái)說(shuō),數(shù)據(jù)的口徑非常重要,大家談?wù)撘粋€(gè)指標(biāo)的時(shí)候,必須基于一個(gè)明確的、公認(rèn)i的口徑,此外表、字段以及指標(biāo)必須進(jìn)行規(guī)范。
?
4、ODS層:數(shù)據(jù)倉(cāng)庫(kù)源頭系統(tǒng)的數(shù)據(jù)表通常會(huì)原封不動(dòng)地存儲(chǔ)一份,這稱(chēng)為ODS(Operation Data Store)層, ODS層也經(jīng)常會(huì)被稱(chēng)為準(zhǔn)備區(qū)(Staging area),
它們是后續(xù)數(shù)據(jù)倉(cāng)庫(kù)層(即基于Kimball維度建模生成的事實(shí)表和維度表層,以及基于這些事實(shí)表和明細(xì)表加工的匯總層數(shù)據(jù))加工數(shù)據(jù)的來(lái)源,
同時(shí)ODS層也存儲(chǔ)著歷史的增量數(shù)據(jù)或全量數(shù)據(jù)。
5、DWD和DWS層:數(shù)據(jù)倉(cāng)庫(kù)明細(xì)層(Data Warehouse Detail , DWD)和數(shù)據(jù)倉(cāng)庫(kù)匯總層(Data Warehouse Summary, DWS)是數(shù)據(jù)倉(cāng)庫(kù)的主題內(nèi)容。
DWD和DWS層的數(shù)據(jù)是ODS層經(jīng)過(guò)ETL清洗、轉(zhuǎn)換、加載生成的,而且它們通常都是基于Kimball的維度建模理論來(lái)構(gòu)建的,并通過(guò)一致性維度和數(shù)據(jù)總線來(lái)保證各個(gè)子主題的維度一致性。
6、應(yīng)用層(ADS):應(yīng)用層主要是各個(gè)業(yè)務(wù)放或者部門(mén)基于DWD和DWS建立的數(shù)據(jù)集市(Data Mart,DM),數(shù)據(jù)集市DM是相對(duì)于DWD和DWS的數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse, DW)
來(lái)說(shuō)的。一般來(lái)說(shuō),應(yīng)用層的數(shù)據(jù)來(lái)源于DW層,但原則上不允許直接訪問(wèn)ODS層。此外,相比DW層,應(yīng)用層只包含部門(mén)或因?yàn)榉阶约宏P(guān)心的明細(xì)層和匯總層數(shù)據(jù)。
?
?
參考資料:《離線和實(shí)時(shí)大數(shù)據(jù)開(kāi)發(fā)實(shí)戰(zhàn)》
?
轉(zhuǎn)載于:https://www.cnblogs.com/shaosks/p/9436653.html
總結(jié)
以上是生活随笔為你收集整理的大数据开发实战:数据仓库技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 本地密钥的安全
- 下一篇: 解决Minikube start卡住的方