30人团队的数据架构师:谈谈数据湖这个风口吧,你们说的都没价值
不知道你們有沒有感覺到,傳統(tǒng)的數(shù)據(jù)倉庫模式,在快速發(fā)展的企業(yè)面前已然顯得力不從心。
數(shù)據(jù)湖,是可以容納大量的原始數(shù)據(jù)的存儲庫和處理系統(tǒng),已經(jīng)成為企業(yè)應(yīng)用大數(shù)據(jù)的重要工具。數(shù)據(jù)湖可以更好地加速從數(shù)據(jù)到價值的過程,打造相應(yīng)業(yè)務(wù)能力。
而有效的數(shù)據(jù)治理才是數(shù)據(jù)資產(chǎn)形成的必要條件,同時數(shù)據(jù)治理是一個持續(xù)性過程,也是數(shù)據(jù)湖逐步實現(xiàn)數(shù)據(jù)價值的過程。未來在多方技術(shù)趨于融合,落地場景將不斷創(chuàng)新,數(shù)據(jù)湖、數(shù)據(jù)治理或?qū)⒊蔀樾碌募夹g(shù)熱點。
今天就以一個30多人團隊數(shù)據(jù)架構(gòu)師和CIO的視角,來談?wù)剶?shù)據(jù)湖這個風(fēng)口。
一、數(shù)據(jù)處理技術(shù)的發(fā)展趨勢與挑戰(zhàn)
在數(shù)字經(jīng)濟時代,應(yīng)用程序在不斷地產(chǎn)生并儲存大量數(shù)據(jù),而這些數(shù)據(jù)卻無法及時被其他程序使用,導(dǎo)致“數(shù)據(jù)孤島”產(chǎn)生。數(shù)據(jù)湖的誕生,不僅解決了“數(shù)據(jù)孤島”的問題,還使企業(yè)獲得更強的數(shù)據(jù)使用能力。
1.1
數(shù)據(jù)管理面臨的挑戰(zhàn)和轉(zhuǎn)變
- 數(shù)據(jù)倉庫模式導(dǎo)致的煙囪式建設(shè)與數(shù)據(jù)需跨業(yè)務(wù)線廣泛連接之間的挑戰(zhàn)
- 傳統(tǒng)數(shù)據(jù)庫不能應(yīng)對數(shù)據(jù)的增長,數(shù)據(jù)ETL、數(shù)據(jù)建模工作的響應(yīng)速度與數(shù)據(jù)反哺業(yè)務(wù)迭代創(chuàng)新之間的挑戰(zhàn)
- 數(shù)據(jù)賦能與業(yè)務(wù)場景探索脫節(jié)的挑戰(zhàn)
1.2
數(shù)據(jù)湖的定義及發(fā)展需求
數(shù)據(jù)湖是一種數(shù)據(jù)存儲理念——即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法。
目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會覺得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個概念,而Hadoop是用于實現(xiàn)這個概念的技術(shù)。數(shù)據(jù)湖到底是什么?業(yè)內(nèi)并沒有達成共識定義
圖1.數(shù)據(jù)湖存儲數(shù)據(jù)類型
數(shù)據(jù)湖是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),并且針對不同的目的,同一份原始數(shù)據(jù)還可能有多種滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。
圖2.未經(jīng)處理和包裝的原生狀態(tài)“水庫”
1.3
從數(shù)據(jù)庫、數(shù)據(jù)倉庫到數(shù)據(jù)湖演變趨勢
從1960年開始,數(shù)據(jù)管理經(jīng)歷了數(shù)據(jù)收集、數(shù)據(jù)庫、數(shù)據(jù)倉庫的階段,2001年后隨著互聯(lián)網(wǎng)的迅速發(fā)展,大數(shù)據(jù)時代來臨,對數(shù)據(jù)管理技術(shù)提出了全新的要求,未來朝著數(shù)據(jù)湖的方向演進。
圖3.數(shù)據(jù)庫、數(shù)據(jù)倉庫到數(shù)據(jù)湖發(fā)展歷程
數(shù)據(jù)庫的數(shù)據(jù)有對齊的要求,數(shù)據(jù)庫是面向應(yīng)用的,每個應(yīng)用可能需要一個數(shù)據(jù)庫。如果一個公司有幾十個應(yīng)用,就會有幾十個數(shù)據(jù)庫。幾十個數(shù)據(jù)庫之間怎么去連接分析、統(tǒng)一分析?是沒有辦法的。
隨后就由數(shù)據(jù)庫發(fā)展成了一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不面向任何應(yīng)用。但是,它對接到數(shù)據(jù)庫,如果需要每天定時有些 ETL 的批處理的任務(wù),將不同應(yīng)用和數(shù)據(jù)匯總起來,按照一些范式模型去做連接分析,得到一定時間段的總體數(shù)據(jù)視圖。這個前提是很多數(shù)據(jù)庫要給數(shù)倉供應(yīng)數(shù)據(jù)。
在這種需求的推動下,數(shù)據(jù)湖的理念便開始成形,其可以把數(shù)據(jù)保存在原始狀態(tài),以便于企業(yè)從多個維度進行更多分析。數(shù)據(jù)可以很輕松進入數(shù)據(jù)湖,用戶也可以延遲數(shù)據(jù)的采集、數(shù)據(jù)清洗、規(guī)范化的處理,可以把這些延遲到業(yè)務(wù)需求來了之后再進行處理。
傳統(tǒng)的數(shù)倉,因為模型范式的要求,業(yè)務(wù)不能隨便的變遷,變遷涉及到底層數(shù)據(jù)的各種變化。相對來說,數(shù)據(jù)湖就更加的靈活,能更快速的適應(yīng)上層數(shù)據(jù)應(yīng)用的變化。
二、數(shù)據(jù)湖的架構(gòu)體系
2.1
數(shù)據(jù)湖架構(gòu)體系
數(shù)據(jù)、算法和算力三大因素正在全力推動數(shù)據(jù)湖應(yīng)用快速發(fā)展。企業(yè)建立統(tǒng)一的數(shù)據(jù)湖平臺,完成數(shù)據(jù)的采集、存儲、處理、治理,提供數(shù)據(jù)集成共享服務(wù)、高性能計算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展。為規(guī)?;瘮?shù)據(jù)應(yīng)用賦能。
筆者認為,數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計等10個方面領(lǐng)域:
圖5.數(shù)據(jù)湖包含技術(shù)體系
就拿數(shù)據(jù)應(yīng)用來說吧,數(shù)據(jù)應(yīng)用是指通過對數(shù)據(jù)湖的數(shù)據(jù)進行統(tǒng)一的管理、加工和應(yīng)用,對內(nèi)支持業(yè)務(wù)運營、流程優(yōu)化、營銷推廣、風(fēng)險管理、渠道整合等活動,對外支持數(shù)據(jù)開放共享、數(shù)據(jù)服務(wù)等活動,從而提升數(shù)據(jù)在組織運營管理過程中的支撐輔助作用,同時實現(xiàn)數(shù)據(jù)價值的變現(xiàn)。
在基本的計算能力之上,數(shù)據(jù)湖需提供批量報表、即席查詢、交互式分析、數(shù)據(jù)倉庫、機器學(xué)習(xí)等上層應(yīng)用,還需要提供自助式數(shù)據(jù)探索能力。
?
?
?
三、如何通過數(shù)據(jù)治理實現(xiàn)數(shù)據(jù)湖商業(yè)價值
數(shù)據(jù)湖對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。構(gòu)建開放、靈活、可擴展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。
1)利用數(shù)據(jù)湖智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足企業(yè)各級數(shù)據(jù)分析應(yīng)用需求。
2)深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標準、認責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。
3.1
數(shù)據(jù)湖遇到挑戰(zhàn)
數(shù)據(jù)湖本身是一個中心化的存儲,能夠存儲任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的優(yōu)勢就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會接踵而至,比如如何將數(shù)據(jù)進行分流、湖的數(shù)據(jù)如何進行整理等。
數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進行堆砌,那么數(shù)據(jù)湖就有可能會變成“數(shù)據(jù)沼澤”,篩選難度會變大。
由于定義不正確、信息不完整、數(shù)據(jù)陳舊或無法找到所需信息,它需要更多的元數(shù)據(jù)來理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)資產(chǎn)圖譜、數(shù)據(jù)敏感性、用戶喜好、數(shù)據(jù)質(zhì)量和數(shù)據(jù)價值等業(yè)務(wù)層面的理解。
另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。
3.2
避免數(shù)據(jù)沼澤
如何讓數(shù)據(jù)湖的水保持清亮不會成為數(shù)據(jù)沼澤?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會成為大垃圾場?!敝袊芯渲V語:“流水不腐,戶樞不蠹”。數(shù)據(jù)只有流動起來,才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。
數(shù)據(jù)流動就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動起來,就要建立有效的“數(shù)據(jù)河”(Data River)。
業(yè)界在數(shù)據(jù)湖的嘗試上一般都會忽視數(shù)據(jù)治理的重要性,這是很危險的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對數(shù)據(jù)湖持續(xù)觀望的原因之一。
3.3
數(shù)據(jù)智能化治理是數(shù)據(jù)湖實現(xiàn)價值必由之路
對數(shù)據(jù)治理的需求實際更強了。因為與“預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)則化等,需要通過治理工作達到數(shù)據(jù)“可用”狀態(tài),否則數(shù)據(jù)湖很可能會“腐化”成數(shù)據(jù)沼澤,浪費大量的IT資源。
平臺化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能。這也是對數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。
數(shù)據(jù)湖以數(shù)據(jù)治理為基礎(chǔ)、建立一套自助服務(wù)為抓手的工具鏈來賦能業(yè)務(wù)發(fā)展。數(shù)據(jù)湖能給企業(yè)帶來多種能力,例如,能實現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。
另外,數(shù)據(jù)湖結(jié)合先進的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。
圖8.數(shù)據(jù)湖中數(shù)據(jù)全生命周期管理
當數(shù)據(jù)從采集點流入數(shù)據(jù)湖時,它的元數(shù)據(jù)被捕獲,并根據(jù)其生命周期中的數(shù)據(jù)敏感度從數(shù)據(jù)可追溯性、數(shù)據(jù)全生命周期和數(shù)據(jù)安全等方面進行管理。
在數(shù)據(jù)大爆發(fā)的背景下,數(shù)據(jù)治理對數(shù)據(jù)湖起到關(guān)鍵作用,因為數(shù)據(jù)治理涉及組織中跨功能和跨業(yè)務(wù)的所有決策機制。
數(shù)據(jù)智能在提供數(shù)據(jù)支持和數(shù)據(jù)治理應(yīng)用方面至關(guān)重要,因為它為企業(yè)提供了在最佳時間內(nèi)將正確的數(shù)據(jù)交付給正確的對象所需的知識。數(shù)據(jù)智能也在幫助專業(yè)人士在工作中變得更高效、更有效,在可靠數(shù)據(jù)的支持下做出更好的數(shù)據(jù)驅(qū)動決策。
3.4
構(gòu)建數(shù)據(jù)湖的數(shù)據(jù)治理體系相關(guān)思考
筆者認為,數(shù)據(jù)湖的數(shù)據(jù)治理體系包括元數(shù)據(jù)管控、數(shù)據(jù)資源目錄、主數(shù)據(jù)管控、數(shù)據(jù)服務(wù)、數(shù)據(jù)全生命周期管理、數(shù)據(jù)質(zhì)量提升及隱私與安全管理等內(nèi)容。而這只是數(shù)據(jù)湖管理難題的一部分。
結(jié)束語
在數(shù)字經(jīng)濟時代里,從數(shù)據(jù)倉庫到數(shù)據(jù)湖,不僅僅是數(shù)據(jù)存儲架構(gòu)的變革,更是大數(shù)據(jù)思維方式的升級。用好數(shù)據(jù)是企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵、數(shù)據(jù)湖是數(shù)據(jù)分析智能商務(wù)的新趨勢。
數(shù)據(jù)湖能給企業(yè)帶來多種能力,數(shù)據(jù)湖結(jié)合先進的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力。數(shù)據(jù)湖將以數(shù)據(jù)治理為基礎(chǔ)、依托一套自助服務(wù)為抓手的工具鏈來賦能業(yè)務(wù)發(fā)展。
歡迎關(guān)注我的公眾號“商業(yè)智能研究”,私信回復(fù)“資料包”,即可領(lǐng)取大數(shù)據(jù)、數(shù)據(jù)中臺、商業(yè)智能、數(shù)據(jù)倉庫等6G精華資料!
總結(jié)
以上是生活随笔為你收集整理的30人团队的数据架构师:谈谈数据湖这个风口吧,你们说的都没价值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大公司程序员 VS 小公司程序员 | 差
- 下一篇: Java环境变量CLASSPATH详解