[转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析
前言
2010年左右,還是在上學(xué)的時(shí)候,學(xué)過(guò)一門課程叫《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》,那還是屬于傳統(tǒng)數(shù)據(jù)的時(shí)代,我們會(huì)討論什么是數(shù)據(jù)倉(cāng)庫(kù)?什么是數(shù)據(jù)集市?數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有什么區(qū)別?等等,當(dāng)我還在苦苦學(xué)習(xí)這些之時(shí),大數(shù)據(jù)時(shí)代悄然到來(lái),并迅速改變著各行各業(yè)。如今,十年風(fēng)云際會(huì),大數(shù)據(jù)早已成了行業(yè)繞不開(kāi)的話題,這其中我們或多或少會(huì)接觸到很多新興的概念,例如數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)等,通過(guò)一些碎片化的學(xué)習(xí),也是大概知道這些概念的意思,但要系統(tǒng)的說(shuō)出這些概念之間的區(qū)別,深刻的了解其內(nèi)涵,對(duì)我而言,恐怕還是困難的。所以,最近我系統(tǒng)的學(xué)習(xí)并總結(jié)了這些概念的含義和區(qū)別,寫成本篇文章,分享給和我一樣對(duì)此困惑并感興趣的同學(xué),希望理清這些概念的內(nèi)涵和異同能對(duì)日后的工作有所幫助。
本篇文章將大體按照傳統(tǒng)數(shù)據(jù)到大數(shù)據(jù)時(shí)代發(fā)展的時(shí)間軸介紹其中所涉及的數(shù)據(jù)概念,并以數(shù)據(jù)倉(cāng)庫(kù)為核心通過(guò)兩兩對(duì)比的方式總結(jié)其中的異同。本文屬于綜述性的概念科普文章,對(duì)其中所涉及到的方法論不做過(guò)多的闡述,感興趣的同學(xué)可以查閱相關(guān)資料學(xué)習(xí),后續(xù),若時(shí)間允許,將陸續(xù)推出相關(guān)方法論系列介紹,同時(shí)歡迎有興趣的同事和我一起完成。
?
1 概念介紹
本文主要介紹如下幾個(gè)數(shù)據(jù)概念:
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)是“按照數(shù)據(jù)結(jié)構(gòu)來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)”。是一個(gè)長(zhǎng)期存儲(chǔ)在計(jì)算機(jī)內(nèi)的、有組織的、有共享的、統(tǒng)一管理的數(shù)據(jù)集合。
數(shù)據(jù)庫(kù)是以一定方式儲(chǔ)存在一起、能與多個(gè)用戶共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨(dú)立的數(shù)據(jù)集合,可視為電子化的文件柜——存儲(chǔ)電子文件的處所,用戶可以對(duì)文件中的數(shù)據(jù)進(jìn)行新增、查詢、更新、刪除等操作。——百度百科
數(shù)據(jù)集市
是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,他主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題,按照多維的方式進(jìn)行存儲(chǔ),包括定義維度需要計(jì)算的指標(biāo)維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。——wikipedia
數(shù)據(jù)倉(cāng)庫(kù)
是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合用于支持管理決策。其主要功能是將組織透過(guò)資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所積累的大量資料,透過(guò)數(shù)據(jù)倉(cāng)庫(kù)理論所特有的資料存儲(chǔ)架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價(jià)值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動(dòng),幫助構(gòu)建商業(yè)智能(BI)。——《Building the data warehouse》W.H.Inmon
數(shù)據(jù)湖
數(shù)據(jù)湖是以其自然格式存儲(chǔ)的數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫(kù),同行是對(duì)象blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來(lái)自關(guān)系數(shù)據(jù)庫(kù)(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)數(shù)據(jù)(電子郵件、文檔、PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)。——wikipedia
數(shù)據(jù)平臺(tái)
數(shù)據(jù)平臺(tái)是在大數(shù)據(jù)基礎(chǔ)上出現(xiàn)的融合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)平臺(tái),為業(yè)務(wù)提供服務(wù)的方式主要是直接提供數(shù)據(jù)集。——網(wǎng)絡(luò)博客
數(shù)據(jù)中臺(tái)
????“以全域大數(shù)據(jù)建設(shè)為中心,技術(shù)上覆蓋整個(gè)大數(shù)據(jù)從采集、加工、服務(wù)、消費(fèi)的全鏈路的各個(gè)環(huán)節(jié),對(duì)內(nèi)對(duì)外提供服務(wù)。豐富的大數(shù)據(jù)生態(tài)組件,構(gòu)成了阿里的核心數(shù)據(jù)能力,通過(guò)大數(shù)據(jù)生態(tài)組件,可以迅速的提升數(shù)據(jù)應(yīng)用的迭代能力,人人都有可能成為大數(shù)據(jù)專家。”——《阿里巴巴全域數(shù)據(jù)建設(shè)》,阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部高級(jí)技術(shù)專家張磊,2017杭州云棲大會(huì)-阿里大數(shù)據(jù)分論壇
“數(shù)據(jù)中臺(tái)是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務(wù),提供給前臺(tái)以業(yè)務(wù)價(jià)值的邏輯概念。”——《數(shù)據(jù)中臺(tái)已成下一風(fēng)口,它會(huì)顛覆數(shù)據(jù)工程師的工作嗎?》,ThoughtWorks數(shù)據(jù)和智能總監(jiān)史凱
????通俗的來(lái)看,以上六個(gè)數(shù)據(jù)概念按順序整體呈現(xiàn)從小到大(指囊括的數(shù)據(jù)范圍和層次),從后端到前臺(tái)演變的趨勢(shì),這也反映出數(shù)據(jù)行業(yè)價(jià)值的轉(zhuǎn)變。從前,IT是業(yè)務(wù)的后端,而數(shù)據(jù)是后端的后端,數(shù)據(jù)要往前走面臨著巨大挑戰(zhàn),人們很難看到數(shù)據(jù)和價(jià)值的關(guān)系。如今,DT時(shí)代,數(shù)據(jù)通過(guò)中臺(tái)直接面向業(yè)務(wù)來(lái)創(chuàng)造價(jià)值,數(shù)據(jù)的價(jià)值可以得到最直接的體現(xiàn)。
2 對(duì)比介紹
數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)行業(yè)發(fā)展時(shí)間軸上一以貫之的概念,它的存在見(jiàn)證了數(shù)據(jù)行業(yè)的發(fā)展,本文將以數(shù)據(jù)倉(cāng)庫(kù)為核心與其他五個(gè)概念的特性進(jìn)行對(duì)比分析:
?
- 數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)庫(kù)
一般來(lái)說(shuō),傳統(tǒng)數(shù)據(jù)庫(kù)是為存儲(chǔ)而生,而數(shù)據(jù)倉(cāng)庫(kù)很明顯,是為分析而生。
傳統(tǒng)數(shù)據(jù)庫(kù)包括增刪改查,但數(shù)據(jù)倉(cāng)庫(kù)注重查詢。而傳統(tǒng)數(shù)據(jù)庫(kù)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)處理(OLTP)。主要負(fù)責(zé)日常操作。而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶或“知識(shí)工人”提供服務(wù),可以以不同的格式組織和提供數(shù)據(jù),以便應(yīng)付不同的需求,這種系統(tǒng)稱作聯(lián)機(jī)分析處理(OLAP)。
| ? | 數(shù)據(jù)倉(cāng)庫(kù) | 數(shù)據(jù)庫(kù) |
| 面向?qū)ο?/p> | 面向市場(chǎng)的,用于知識(shí)工人的數(shù)據(jù)分析 | 面向顧客的,用戶操作員,客戶和信息技術(shù)人員的事務(wù)和查詢處理 |
| 數(shù)據(jù)內(nèi)容 | 管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,而且在不同的粒度層上存儲(chǔ)和管理信息 | 管理當(dāng)前數(shù)據(jù)。一般這種數(shù)據(jù)比較瑣碎,很難用于決策 |
| 數(shù)據(jù)設(shè)計(jì) | 系統(tǒng)采用星形或雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì) | 采用實(shí)體聯(lián)系數(shù)據(jù)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì) |
| 數(shù)據(jù)視圖 | 經(jīng)常需要跨越數(shù)據(jù)庫(kù)模式的不同版本 | 關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同單位的數(shù)據(jù) |
| 訪問(wèn)模式 | 大部分是只讀操作 | 主要由短的原子事務(wù)組成,一般需要并發(fā)控制和恢復(fù)機(jī)制 |
?
相信數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)的區(qū)別,大家都已經(jīng)有所了解,這里就不做過(guò)多的解釋了。
- 數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)集市
數(shù)據(jù)集市不同于數(shù)據(jù)倉(cāng)庫(kù),一般是服務(wù)于某幾個(gè)部門。數(shù)據(jù)倉(cāng)庫(kù)向各個(gè)數(shù)據(jù)集市提供數(shù)據(jù),且一般來(lái)講,數(shù)據(jù)倉(cāng)庫(kù)的表設(shè)計(jì)符合規(guī)范化設(shè)計(jì),而數(shù)據(jù)集市一般使用維度建模。一般有兩種類型的數(shù)據(jù)集市——獨(dú)立性和從屬性。獨(dú)立性數(shù)據(jù)集市直接從操作型環(huán)境獲取數(shù)據(jù),從屬性數(shù)據(jù)集市從企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù)。
從屬性數(shù)據(jù)集市結(jié)構(gòu)如下圖所示:
?
?上圖所示的以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的決策支持環(huán)境,要求數(shù)據(jù)倉(cāng)庫(kù)能夠滿足所有最終用戶的需求。然而,最終用戶的需求是不斷變化的,而且各種類型的用戶對(duì)信息的需求也不一樣,這就要求數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)具有充分的靈活性,能夠適應(yīng)各類用戶的查詢和分析。另一方面,最終用戶對(duì)信息的需求必須易于訪問(wèn),能夠在較高的性能上獲得結(jié)果。但是,靈活性和性能對(duì)數(shù)據(jù)倉(cāng)庫(kù)而言,是一對(duì)矛盾體。為了適應(yīng)靈活性的要求,數(shù)據(jù)倉(cāng)庫(kù)需要存儲(chǔ)各種歷史數(shù)據(jù),以規(guī)范化的模式存儲(chǔ)(一般是第3范式)。于是,對(duì)于特定的用戶,TA所需要的信息就需要在許多張很大的表上連接后得到結(jié)果,這樣就無(wú)法滿足用戶對(duì)快速訪問(wèn)的性能需求。為了解決靈活性和性能之間的矛盾,數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中增加了數(shù)據(jù)集市,數(shù)據(jù)集市存儲(chǔ)為特定用戶需求而預(yù)先計(jì)算好的數(shù)據(jù),從而滿足用戶對(duì)性能的需求。
獨(dú)立型數(shù)據(jù)集市的存在會(huì)給人造成一種錯(cuò)覺(jué),似乎可以先獨(dú)立地構(gòu)建數(shù)據(jù)集市,當(dāng)數(shù)據(jù)集市達(dá)到一定的規(guī)模可以直接轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù),然而這是不正確的,多個(gè)獨(dú)立的數(shù)據(jù)集市的累積并不能形成一個(gè)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù),這是由數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市本身的特點(diǎn)決定的。如果脫離集中式的數(shù)據(jù)倉(cāng)庫(kù),獨(dú)立的建立多個(gè)數(shù)據(jù)集市,企業(yè)只會(huì)又增加了一些信息孤島,仍然不能以整個(gè)企業(yè)的視圖分析數(shù)據(jù),數(shù)據(jù)集市為各個(gè)部門或工作組所用,各個(gè)集市之間又會(huì)存在不一致性。當(dāng)然,獨(dú)立型數(shù)據(jù)集市是一種既成事實(shí),為滿足特定用戶的需求而建立的一種分析型環(huán)境,但是,從長(zhǎng)遠(yuǎn)的觀點(diǎn)看,是一種權(quán)宜之計(jì),必然會(huì)被企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)所取代。
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的區(qū)別總結(jié)如下:
| ? | 數(shù)據(jù)倉(cāng)庫(kù) | 數(shù)據(jù)集市 |
| 數(shù)據(jù)來(lái)源 | 遺留系統(tǒng)、OLTP系統(tǒng)、外部數(shù)據(jù) | 數(shù)據(jù)倉(cāng)庫(kù) |
| 范圍 | 企業(yè)級(jí) | 部門級(jí)或工作組級(jí) |
| 主題 | 企業(yè)主題 | 部門或特殊的分析主題 |
| 數(shù)據(jù)粒度 | 最細(xì)的粒度 | 較粗的粒度 |
| 數(shù)據(jù)結(jié)構(gòu) | 規(guī)范化結(jié)構(gòu)(第3范式) | 星型模式、雪片模式或混合模式 |
| 歷史數(shù)據(jù) | 大量的歷史數(shù)據(jù) | 適度的歷史數(shù)據(jù) |
| 優(yōu)化 | 處理海量數(shù)據(jù) ?數(shù)據(jù)探索 | 便于訪問(wèn)和分析 ?快速查詢 |
| 索引 | 高度索引 | 高度索 |
????上文中提到諸多數(shù)據(jù)建模方法,如規(guī)范化建模、維度建模(星型模式、雪片模式、混合模式等)屬于具體方法論范疇,感興趣的同學(xué)可以查閱相關(guān)資料,便于對(duì)以上概念進(jìn)行更深刻的理解。
- 數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)湖
相較而言,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲(chǔ)任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會(huì)接受數(shù)據(jù)治理,但專家們都認(rèn)為良好的數(shù)據(jù)管理對(duì)預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活;它們還提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。
| ? | 數(shù)據(jù)倉(cāng)庫(kù) | 數(shù)據(jù)湖 |
| 類型 | 結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)必須與數(shù)據(jù)倉(cāng)庫(kù)事先定義的模型吻合 | 所有類型數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式 |
| 目的 | 處理結(jié)構(gòu)化數(shù)據(jù),將他們或者轉(zhuǎn)換為多維數(shù)據(jù),或者轉(zhuǎn)換為報(bào)表,以滿足后續(xù)的高級(jí)報(bào)表及數(shù)據(jù)分析需求 | 非常適合深度分析,包括高級(jí)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等 |
| 特點(diǎn) | 高性能、可重復(fù)性、持續(xù)使用 | 便于探索、創(chuàng)新、靈活性高 |
數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的差別很明顯,然而在企業(yè)中兩者的作用是互補(bǔ)的,不應(yīng)認(rèn)為數(shù)據(jù)湖的出現(xiàn)是為了取代數(shù)據(jù)倉(cāng)庫(kù)。
- 數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)平臺(tái)
因數(shù)據(jù)倉(cāng)庫(kù)具有歷史性,其中存儲(chǔ)的數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)平臺(tái)的出現(xiàn)解決了數(shù)據(jù)倉(cāng)庫(kù)不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開(kāi)發(fā)周期長(zhǎng)的問(wèn)題。
| ? | 數(shù)據(jù)倉(cāng)庫(kù) | 數(shù)據(jù)平臺(tái) |
| 數(shù)據(jù)類型 | 結(jié)構(gòu)化數(shù)據(jù) | 所有類型數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等 |
| 服務(wù)方式 | 為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表 | 為業(yè)務(wù)提供的方式主要是直接提供數(shù)據(jù)集 |
在以上的解讀中,數(shù)據(jù)平臺(tái)和數(shù)據(jù)湖好像存在諸多相似性,這二者的區(qū)別個(gè)人認(rèn)為應(yīng)該從數(shù)據(jù)加工的角度理解,數(shù)據(jù)湖更著重對(duì)原始數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)平臺(tái)則同數(shù)據(jù)倉(cāng)庫(kù)一樣,需對(duì)原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等數(shù)據(jù)處理后進(jìn)行統(tǒng)一規(guī)范存儲(chǔ)。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)平臺(tái)一般被稱之為大數(shù)據(jù)平臺(tái)。狹義上的大數(shù)據(jù)平臺(tái)和傳統(tǒng)數(shù)據(jù)平臺(tái)的功能一致,只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同,但廣義的大數(shù)據(jù)平臺(tái)通常被賦予更多的使命,它不僅存儲(chǔ)多樣化的數(shù)據(jù)類型,還具有報(bào)表分析等數(shù)據(jù)倉(cāng)庫(kù)的功能,以及其他數(shù)據(jù)分析挖掘方面的高級(jí)功能。
- 數(shù)據(jù)倉(cāng)庫(kù)VS數(shù)據(jù)中臺(tái)
先說(shuō)說(shuō)數(shù)據(jù)中臺(tái),從數(shù)據(jù)中臺(tái)的眾多定義中我們可以總結(jié)出如下一些特點(diǎn)或目標(biāo):
- 采集并致力跨域數(shù)據(jù)
采集并加工“企業(yè)內(nèi)外割裂的數(shù)據(jù)”,“治理跨域數(shù)據(jù)”,消除數(shù)據(jù)孤島。
- 形成數(shù)據(jù)資產(chǎn)層
經(jīng)過(guò)加工的數(shù)據(jù),“實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化”形成“企業(yè)數(shù)據(jù)資產(chǎn)管理中樞”。各類人員可以直接從數(shù)據(jù)中臺(tái)選用需要的數(shù)據(jù)。
- 增強(qiáng)“數(shù)據(jù)應(yīng)用”迭代能力
提供組件化的加工能力,能夠快速形成業(yè)務(wù)需要的數(shù)據(jù)產(chǎn)品,“可以迅速的提升數(shù)據(jù)應(yīng)用的迭代能力”。
- 形成API化的數(shù)據(jù)服務(wù)
形成數(shù)據(jù)資產(chǎn)并封裝成API服務(wù)后,應(yīng)用和中臺(tái)之間無(wú)縫銜接,形成高度自動(dòng)化的數(shù)據(jù)應(yīng)用流程。業(yè)務(wù)人員即使不了解大數(shù)據(jù)技術(shù),也能實(shí)施數(shù)據(jù)驅(qū)動(dòng)型的工作,“人人都有可能成為大數(shù)據(jù)專家。”
- 業(yè)務(wù)為驅(qū)動(dòng)的數(shù)據(jù)服務(wù)
數(shù)據(jù)中臺(tái)的目的是為前臺(tái)業(yè)務(wù)提供服務(wù),因此對(duì)數(shù)據(jù)的計(jì)算、加工都是以滿足業(yè)務(wù)需求為目標(biāo)。脫離場(chǎng)景的數(shù)據(jù)中臺(tái)是不合理的。
數(shù)據(jù)倉(cāng)庫(kù)也好,傳統(tǒng)的數(shù)據(jù)平臺(tái)也好,其出發(fā)點(diǎn)應(yīng)該說(shuō)更是一個(gè)支撐性的技術(shù)系統(tǒng),即一定要去考慮我有什么數(shù)據(jù),然后我才能干什么,因此特別強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理,而數(shù)據(jù)中臺(tái)的第一出發(fā)點(diǎn)可不是數(shù)據(jù),而是業(yè)務(wù),一開(kāi)始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務(wù)問(wèn)題需要什么樣的數(shù)據(jù)服務(wù)。
在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺(tái)中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。
概括地說(shuō),二者的關(guān)鍵區(qū)別有以下幾方面:
| ? | 數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)平臺(tái) | 數(shù)據(jù)中臺(tái) |
| 建設(shè)思想 | 以數(shù)據(jù)為驅(qū)動(dòng),自下向上 | 以業(yè)務(wù)為驅(qū)動(dòng),自上向下 |
| 服務(wù)方式 | 提供相關(guān)數(shù)據(jù)集或分析報(bào)表 | API化(或其他共享方式)的數(shù)據(jù)服務(wù) |
| 業(yè)務(wù)距離 | 距離業(yè)務(wù)遠(yuǎn),用于支持管理決策分析,業(yè)務(wù)價(jià)值無(wú)法直接體現(xiàn) | 距離業(yè)務(wù)近,加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過(guò)程 |
| 使用場(chǎng)景 | 主要用于分析型場(chǎng)景 | 不僅適用于分析型,也適用于交易型等場(chǎng)景 |
| 處理結(jié)構(gòu) | ETL結(jié)構(gòu) | ELT結(jié)構(gòu) |
身處大數(shù)據(jù)行業(yè),最后想簡(jiǎn)單的說(shuō)說(shuō)大數(shù)據(jù)平臺(tái)和數(shù)據(jù)中臺(tái)。上文中提到,廣義的大數(shù)據(jù)平臺(tái)是一個(gè)企業(yè)級(jí)的超融合概念,無(wú)論是數(shù)據(jù)采集、存儲(chǔ)、處理、分析等環(huán)節(jié)在技術(shù)架構(gòu)上和數(shù)據(jù)中臺(tái)并無(wú)明顯區(qū)別,個(gè)人認(rèn)為當(dāng)大數(shù)據(jù)平臺(tái)滿足以業(yè)務(wù)為驅(qū)動(dòng)的建設(shè)模式和數(shù)據(jù)服務(wù)化的條件,大數(shù)據(jù)平臺(tái)一般也可看做是數(shù)據(jù)中臺(tái)。但需認(rèn)識(shí)到,不少大數(shù)據(jù)平臺(tái)還是屬于以數(shù)據(jù)為驅(qū)動(dòng)進(jìn)行建設(shè)的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),以數(shù)據(jù)集中化為目標(biāo),很少考慮它的業(yè)務(wù)價(jià)值和具體業(yè)務(wù)的數(shù)據(jù)服務(wù)內(nèi)容和形式,這也是直接導(dǎo)致不少大數(shù)據(jù)平臺(tái)利用率較低或者價(jià)值較低的一個(gè)非常重要的原因。
3 總結(jié)
以上的概念是隨著數(shù)據(jù)行業(yè)的發(fā)展不斷涌現(xiàn)的新興概念,但新興概念的出現(xiàn)不是為了取代舊的概念,他們之間更多的應(yīng)該是相互補(bǔ)充,相互融合的關(guān)系。我們不應(yīng)一味的迎合潮流,強(qiáng)行向流行靠攏,也不應(yīng)因循守舊而錯(cuò)失與時(shí)俱進(jìn)的最佳時(shí)機(jī)。
為了更好的理解上述概念,基于個(gè)人理解將上述概念分為兩個(gè)類別:一個(gè)是偏技術(shù)性數(shù)據(jù)概念,包括數(shù)據(jù)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖等,另一個(gè)是偏業(yè)務(wù)性數(shù)據(jù)概念,包括大數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)等。以上分類可以幫助我們更好的理清他們之間的聯(lián)系,偏業(yè)務(wù)性數(shù)據(jù)概念的實(shí)現(xiàn)或多或少會(huì)用到或融合偏技術(shù)性的數(shù)據(jù)概念或是基于技術(shù)性數(shù)據(jù)概念的架構(gòu),從這個(gè)角度出發(fā),或許可以更好理解它們之間相互補(bǔ)充、相互融合的關(guān)系。例如,第三方IT研究與顧問(wèn)咨詢公司Gartner聯(lián)袂某國(guó)內(nèi)廠商發(fā)布的基于數(shù)據(jù)湖架構(gòu)的大數(shù)據(jù)平臺(tái),據(jù)悉是國(guó)內(nèi)首個(gè)企業(yè)級(jí)的私有云數(shù)據(jù)湖,是新一代的數(shù)據(jù)匯聚、共享、交換、開(kāi)放平臺(tái)。
????當(dāng)我們正在感嘆從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖、從數(shù)據(jù)平臺(tái)到數(shù)據(jù)中臺(tái)的演化如此迅速之時(shí),其它新興的數(shù)據(jù)概念也已悄然到來(lái)。例如數(shù)據(jù)網(wǎng)絡(luò)(Data mesh)概念的提出,改變了數(shù)據(jù)湖或者數(shù)據(jù)倉(cāng)庫(kù)的集中式范式,將企業(yè)數(shù)據(jù)平臺(tái)從單體式架構(gòu)演進(jìn)成具有微服務(wù)特性的分布式數(shù)據(jù)平臺(tái),而這種架構(gòu)應(yīng)該更能滿足數(shù)據(jù)中臺(tái)關(guān)于靈活的數(shù)據(jù)服務(wù)化的要求。數(shù)據(jù)時(shí)代發(fā)展日新月異,新興概念層出不窮,我們唯有保持足夠的學(xué)習(xí)熱情并積極的思考其內(nèi)在的演進(jìn)邏輯才能緊跟時(shí)代前沿,創(chuàng)造性的解決一些難題。
以上相關(guān)概念當(dāng)放在兩兩對(duì)比的角度總是容易從狹義且嚴(yán)格的定義中來(lái)找不同,實(shí)際上,在工作中,廣義的理解可能更有利于工作的開(kāi)展,比如數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的區(qū)別,狹義上是屬于數(shù)據(jù)層次的不同,廣義上當(dāng)我們談到企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)時(shí),個(gè)人認(rèn)為把他理解為包含了眾多從屬性數(shù)據(jù)集市的數(shù)據(jù)倉(cāng)庫(kù)也是可以的。弱化一下較小且細(xì)的概念在跨專業(yè)或者工作組的溝通上,可能會(huì)更加高效和容易一些。但這一切的前提需建立在對(duì)相關(guān)概念的深刻理解之上,只有這樣能才舉重若輕、收放自如。
所以,以上對(duì)概念的理解應(yīng)作為對(duì)日后相關(guān)工作框架性的指導(dǎo),而非嚴(yán)格的約束,在生產(chǎn)過(guò)程中我們應(yīng)結(jié)合企業(yè)自身特點(diǎn)兼顧效率,這樣才能達(dá)到較好的效果,畢竟適合自己的才是最好的。
以上內(nèi)容來(lái)自于網(wǎng)絡(luò)博客和個(gè)人的觀點(diǎn),但均屬一家之言,對(duì)于總結(jié)或者分析不對(duì)的地方,歡迎指正。
?
參考資料
1.超越數(shù)據(jù)平臺(tái)!阿里推崇的數(shù)據(jù)中臺(tái)到底是什么樣的
https://baijiahao.baidu.com/s?id=1645427586926296393&wfr=spider&for=pc
2.辨析BI、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)內(nèi)涵及差異點(diǎn)(建議收藏)
https://blog.csdn.net/zhaodedong/article/details/101139388
3.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的概念、區(qū)別與聯(lián)系
https://blog.csdn.net/weixin_42575593/article/details/84763340
4.《數(shù)據(jù)資產(chǎn)管理實(shí)踐白皮書(shū)4.0版》
5.從數(shù)據(jù)倉(cāng)庫(kù)到大數(shù)據(jù),數(shù)據(jù)平臺(tái)這25年是怎樣進(jìn)化的?
https://blog.csdn.net/weixin_30826095/article/details/96178130
6.什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……
https://blog.csdn.net/zw0Pi8G5C1x/article/details/87910161
7.Data Lake與數(shù)據(jù)倉(cāng)庫(kù)
https://blog.csdn.net/Tybyqi/article/details/86647607
8.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖之間有何區(qū)別?
https://my.oschina.net/hblt147/blog/3024677
9.分布式數(shù)據(jù)平臺(tái)Data Mesh
https://zhuanlan.zhihu.com/p/83134986
10.基于數(shù)據(jù)湖架構(gòu)的大數(shù)據(jù)平臺(tái):品高云與Gartner聯(lián)合報(bào)告
https://blog.csdn.net/chuanzhongdu1/article/details/84848380
?
---------------------
作者:lvxiao9856
來(lái)源:CSDN
原文:https://blog.csdn.net/u012548562/article/details/103910938
版權(quán)聲明:本文為作者原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!
內(nèi)容解析By:CSDN,CNBLOG博客文章一鍵轉(zhuǎn)載插件
總結(jié)
以上是生活随笔為你收集整理的[转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [转]WebView长按弹出复制粘贴
- 下一篇: [转]定了!2020年,6种将死的编程语