数据中台与数据湖概念认知
一、數據中臺
1. 什么是中臺?
? ? ? ?按照數據咨詢公司Thoughtworks首席咨詢師王健給出的10個字定義,中臺就是:“企業級的能力復用平臺”?
- “企業級”劃定了中臺的范圍,區分開了單系統的服務化與微服務。
- “能力”指定了中臺的主要承載對象,能力的抽象解釋了各種各樣中臺的存在。
- “復用”定義了中臺的核心價值,過去的平臺化對于易復用性并沒有給予足夠關注。中臺的興起,使得人們的目光更多的從平臺內部,轉換到平臺對于前臺業務的支撐上。
- “平臺”說明了中臺的主要形式,區別于應用系統拼湊的方式,通過對于更細粒度能力的識別與平臺化沉淀,實現企業能力的柔性復用,對于前臺業務更好的支撐。
2. 中臺從何而來??
- ?中臺是最早由阿里在2015年提出的“大中臺,小前臺”戰略中延伸出來的概念。
- 中臺的靈感來源于芬蘭的小公司Supercell,這家公司僅有300名員工,卻接連推出爆款游戲,是全球最會賺錢的明星游戲公司。
- 2015年年中,馬云帶領阿里眾高管拜訪了Supercell。
- 2016年6月,騰訊宣布以86億美元收購Supercell公司84.3%的股權。
- Supercell開創了中臺的“玩法”,并將其運用到了極致。這家看似很小的公司,設置了一個強大的中臺,用以支持眾多的小團隊進行游戲研發。這樣一來,各個團隊就可以專心創新,不用擔心基礎卻又至關重要的技術支撐問題。
- Supercell的CEO潘納寧將一個游戲公司按照一個專業運動隊的方式來管理。他認為管理層的唯一使命是獲得最好的人才,為他們創造最好的環境,給他們自由和信任,幫助他們擺脫困境,讓公司成為一個最好人可以產生最大影響的地方。其他的一切,包括財務目標,都是次要的。因此Supercell構建了完全顛倒的管理結構。傳統的管理結構是一個金字塔形的,CEO往往處在金字塔的頂端。而Supercell最大的創新之處,在于其管理結構完全是上下顛倒的。潘納寧最引以為豪的標簽是:“行業里最沒有權力的CEO”。
- Supercell的整體架構采用“開發者領導”的模式。300人的團隊被分成若干個小團隊,5-7個游戲開發者組成一個小團隊,開發自己的游戲,以最快的速度推出公測版,檢測游戲受用戶歡迎的情況。這些小團隊又被稱為“細胞cell”,Supercell則是這些細胞的集合,這也是Supercell公司名的由來。由此可見,中臺不是單純的系統或平臺,更是組織架構的重組和變革。
3. 中臺解決了什么痛點?
痛點一:企業前方市場與企業內部支撐的沖突
用戶和用戶的需求永遠是善變的。主流用戶的變化,不會因為某個年代人的話語權高低而穩定下來。而即便是同年代的用戶,在隨著現代社會發展和各行各業互聯網服務的滋養中又進化細分成了出不同的支流,需求全然不同,呈現場景化、碎片化的特征。為了不被善變的用戶所拋棄,企業不得不跟隨著用戶;為了滿足用戶而盡可能積極地響應用戶需求的變化,發展新業務、提供新服務。這就給企業的前方業務端提出了挑戰:必須做到快速響應、靈活運轉。要作為一個能承接大量新業務和新服務的大體量企業,業務想要做到量大又靈活,必定需要靠企業內部科學有序體系的穩定支撐。所以,企業前方市場總是會趨于變化無序,而企業內部支撐總歸要趨于穩定有序,兩者必定沖突。
痛點二:前臺與后臺的沖突?
企業前方市場和企業內部支撐的沖突,必定帶來在系統層級上的前臺和后臺的沖突。
- 前臺:企業前方市場的管理平臺,是企業的終端用戶直接使用或交互的系統。比如像微信、QQ、淘寶這樣的APP;
- 后臺:企業內部支撐的管理平臺,是企業管理核心能力的系統。比如像企業ERP管理平臺、企業財務管理平臺等系統。?
前臺是對接用戶的,所以系統需要快速響應前端用戶的需求,快速創新、快速迭代。簡而言之:快速建設、錯了就推翻重來、不能耗費太大成本。?
后臺是企業對內的,為了支撐前臺越來越多的業務,后臺不斷地建設,系統不斷龐大地起來。所以后臺系統需要扎實穩定,建成之后往往不能隨意改動。簡而言之,是需要耗費大力成本建設的基礎能力、不能輕易推翻、改動成本極大。前臺系統和后臺系統的特點決定了兩者的沖突不可避免。
痛點三:大企業的通病(各占山頭、重復建設)?
企業發展到一定程度,組織架構和層級必然不斷膨脹擴張。各大事業部下各大部門,就像一個小型組織一樣,各占山頭,勢必會出現屁股決定腦袋的現象。大企業內部各處都是墻——部門墻、業務墻、數據墻。更不用說那些一味的內部賽馬的績效考核機制,勢必更加加劇部門間的相互封閉。而一些原本可以快速提供的用戶服務,卻需要多重對接,無法快速拿出產品方案,耗費很大的成本和極長的時間。一個原本可以共用的服務,被不同部門重復建設。
4. 中臺的類型有哪些?
按照目前普遍的說法,中臺分為6類:
- 數據中臺:提供數據分析能力,幫助企業從數據中學習改進,調整方向。
- 業務中臺:提供重用服務,例如用戶中心、訂單中心之類的開箱即用可重用能力。
- 算法中臺:提供算法能力,幫助提供更加個性化的服務,增強用戶體驗。
- 技術中臺:提供自建系統部分的技術支撐能力,幫助解決基礎設施、分布式數據庫等底層技術問題。
- 研發中臺:提供自建系統的管理和技術實踐支撐能力,幫助快速搭建項目、管理進度、測試、持續集成、持續交付。
- 組織中臺:為項目提供投資管理、風險管理、資源調度等支持。
5. 中臺建設的三大階段
WHAT(是什么?)-->WHY(為什么?)-->HOW(怎么做?)
7. 數據中臺架構設計
?
在此架構上要實現的功能:
每個公司的數據中臺架構都不甚相同,但是基本的思路卻相差無幾。都是要經過數據的抽取轉換與加載實現貫穿整個公司業務線的過程。?
8. 如何建設
二、數據湖
維基百科上定義,數據湖(Data Lake)是一個以原始格式存儲數據的存儲庫或系統。它按原樣存儲數據,而無需事先對數據進行結構化處理。一個數據湖可以存儲結構化數據(如關系型數據庫中的表),半結構化數據(如CSV、日志、XML、JSON),非結構化數據(如電子郵件、文檔、PDF)和二進制數據(如圖形、音頻、視頻)。
但是隨著大數據技術的融合發展,數據湖不斷演變,匯集了各種技術,包括數據倉庫、實時和高速數據流技術、數據挖掘、深度學習、分布式存儲和其他技術。逐漸發展成為一個可以存儲所有結構化和非結構化任意規模數據,并可以運行不同類型的大數據工具,對數據進行大數據處理、實時分析和機器學習等操作的統一數據管理平臺。
目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用于實現這個概念的技術。
下面通過一組漫畫,更直觀的解釋數據湖的概念。
從前,數據少的時候,人們拿腦子記就可以了,大不了采用結繩記事:
后來,為了更有效率的記事和工作,數據庫出現了。數據庫核心是滿足快速的增刪改查,應對聯機事務。
比如你用銀卡消費了,后臺數據庫就要快速記下這筆交易,更新你的卡余額。
日子久了,人們發現,庫里的數據越來越多了,不光要支持聯機業務,還有分析的價值。但是,傳統數據庫要滿足頻繁、快速的讀寫需求,并不適合這種以讀取大量數據為特征的分析業務。
于是,人們在現有的數據庫基礎上,對數據進行加工。這個加工過程,被稱為:ETL(Extract-Transform-Load)抽取、轉換和加載。
經過這三步,數據倉庫就建好了。這個“倉庫”,主要是為了數據分析用途,比如用于BI、出報表、做經營分析等等。
簡要總結下:數據庫用于聯機事務,通常為小數據量高頻讀寫。
數據庫等原始數據,經過ETL加工以后,就被裝進了數據倉庫。數據倉庫主要用于聯機分析業務,通常為大數據量讀取。
雖然應用場景不一樣,但他們都是結構化數據。
在相當長的一段時間內,他們聯合起來,共同滿足企業的實時“交易”型業務和聯機“分析性”的業務。
隨著時代的發展,數據的類型越來越多,人們對數據的需求也越來越復雜。
企業越來越看重這些“大數據”的價值,希望把他們存好、用好。
這些數據,五花八門,又多又雜,怎么存呢?
索性挖個大坑吧!
這就是數據湖的原型。說白了,數據湖就像一個“大水坑”,是一種把各類異構數據進行集中存儲的架構。
為什么不是數據河Data River?
因為,數據要能存,而不是一江春水向東流。
為什么不是數據池Data Pool?
因為,要足夠大,大數據太大,一池存不下。
為什么不是數據海Data Sea?
因為,企業的數據要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。
so,數據湖,Data Lake,剛剛好。
1. 數據湖特點
1) 原始數據
海量原始數據集中存儲,無需加工。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志, XML, JSON),非結構化數據(電子郵件,文檔, PDF)和二進制數據(圖像,音頻,視頻)。也就是數據湖將不同種類的數據匯聚到一起。
2) 按需計算
使用者按需處理,不需要移動數據即可計算。數據庫通常提供了多種數據計算引擎供用戶來選擇。常見的包括批量、實時查詢、流式處理、機器學習等。
3) 延遲綁定
數據湖提供靈活的,面向任務的數據編訂,不需要提前定義數據模型。
2. 數據湖優缺點
1)優點
數據湖中的數據最接近原生的。這對于數據探索類需求,帶來很大便利,可以直接得到原始數據。
數據湖統一企業內部各個業務系統數據,解決信息孤島問題。為橫跨多個系統的數據應用,提供一種可能。
數據湖提供了全局的、統一的企業級數據概覽視圖,這對于數據質量、數據安全..直到整體的數據治理,甚至提高到數據資產層面都大有裨益。
數據湖改變了原有工作模式,鼓勵人人了解、分析數據;而不是依賴于專門的數據團隊的”供給”方式,可以提升數據運營效率、改善客戶互動、鼓勵數據創新。
2. 缺點
對數據的歸集處理程度明顯缺失,對于試圖直接使用數據的用戶來說顯得有些過于“原材料”化,且數據太過冗余。應對這一問題,可通過”數據接入+數據加工+數據建模”的方式來解決。
對數據湖基礎層的性能有較高要求,必須依托高性能的服務器進行數據處理過程。這主要是來自于海量數據、異構多樣化數據、延遲綁定模式等帶來的問題。.
數據處理技能要求高。這也主要是因為數據過于原始帶來的問題。
3. 數據湖與數據倉庫
數據湖建設思路從本質上顛覆了傳統數據倉庫建設方法論。傳統的企業數據倉庫則強調的是整合、面向主題、分層次等思路。其兩者并不是對等的概念,更多是包含;即數據倉庫作為數據湖的一類“數據應用”存在。
兩者可從以下維度進行對比:
1)存儲數據類型
數據倉庫是存儲清洗加工過的,可信任的、結構良好的數據;數據湖則是存儲大量原始數據,包括結構化的、半結構化的和非結構化的數據。在我們世界中,主要是由原始的、混亂的、非結構化的數據組成。
隨著“混亂數據”的不斷升級,人們對它的興趣也不斷增長,想要更好的理解它、從其中獲取價值、并根據它做出決策。這就得需要一個靈活、敏捷、經濟且相對輕松的解決方案,然而這些都不是數據倉庫的強項。而且當有新的需求提出時,傳統數據倉庫又難以快速隨之變化。
2)處理數據方式
如果需要加載到數據倉庫中的數據,我們首先需要定義好它,這叫做寫時模式(Schema-On-Write)。而對于數據湖,您只需加載原始數據,然后,當您準備使用數據時,就給它一個定義,這叫做讀時模式(Schema-On-Read)。
這是兩種截然不同的數據處理方法。因為數據湖是在數據到使用時再定義模型結構,因此提高了數據模型定義的靈活性,可滿足更多不同上層業務的高效率分析訴求。
3)工作合作方式
傳統的數據倉庫的工作方式是集中式的,業務人員給需求到數據團隊,數據團隊根據要求加工、開發成維度表,供業務團隊通過BI報表工具查詢。
數據湖更多是開放、自助式的(self-service),開放數據給所有人使用,數據團隊更多是提供工具、環境供各業務團隊使用(不過集中式的維度表建設還是需要的),業務團隊進行開發、分析。
目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一個概念,而Hadoop是用于實現這個概念的技術。
·通過Hadoop存儲成本低的特點,將海量的原始數據、本地數據、轉換數據等保存在Hadoop中。這樣所有數據都在一個地方存儲,能給后續的管理、再處理、分析提供基礎。
·通過Hive、Spark等低成本處理能力(相較于RDBMS),將數據交給大數據庫平臺劑型處理。此外,還可通過Storm、Flink等支持流式處理等特殊計算方式。
·由于Hadoop的可擴展性,可以很方便地實現全量數據存儲。結合數據生命周期管理,可做到全時間跨度的數據管控。
4. 數據湖的架構體系
1) 數據接入(移動)
數據提取允許連接器從不同的數據源獲取數據并加載到數據湖中。數據提取支持:所有類型的結構化,半結構化和非結構化數據。批量,實時,一次性負載等多次攝取;在數據接入方面,需提供適配的多源異構數據資源接入方式,為企業數據湖的數據抽取匯聚提供通道。
2) 數據存儲
數據存儲應是可擴展的,提供經濟高效的存儲并允許快速訪問數據探索。它應該支持各種數據格式。
3) 數據計算
數據湖需要提供多種數據分析引擎,來滿足數據計算需求。需要滿足批量、實時、流式等特定計算場景。此外,向下還需要提供海量數據的訪問能力,可滿足高并發讀取需求,提高實時分析效率。并需要兼容各種開源的數據格式,直接訪問以這些格式存儲的數據。
4) 數據治理
數據治理是管理數據湖中使用的數據的可用性,安全性和完整性的過程。數據治理是一項持續的工作,通過闡明戰略、建立框架、制定方 針以及實現數據共享,為所有其他數據管理職能提供指導和監督。
5) 元數據
元數據管理是數據湖整個數據生命周期中需要做的基礎性工作,企業需要對元數據的生命周期進行管理。元數據管理本身并不是目的,它是組織從其數據中獲得更多價值的一種手段,要達到數據驅動,組織必須先是由元數據驅動的。
6) 數據資源目錄
數據資源目錄的初始構建,通常會掃描大量數據以收集元數據。目錄的數據范圍可能包括全部數據湖中被確定為有價值和可共享的數據資產。數據資源目錄使用算法和機器學習自動完成查找和掃描數據集、提取元數據以支持數據集發現、暴露數據沖突、推斷語義和業務術語、給數據打標簽以支持搜索、以及標識隱私、安全性和敏感數據的合規性。
7) 隱私與安全
數據安全是安全政策和安全程序的規劃、開發和執行、以提供對數據和信息資產的身份驗證、授權、訪問和審核。需要在數據湖的每個層中實現安全性。它始于存儲,發掘和消耗,基本需求是停止未授權用戶的訪問。身份驗證、審計、授權和數據保護是數據湖安全的一些重要特性。
8) 數據質量
數據質量是數據湖架構的重要組成部分。數據用于確定商業價值,從劣質數據中提取洞察力將導致質量差的洞察力。數據質量重點關注需求、檢查、分析和提升的實現能力,對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題進行識別、度量、監控、預警等一系列活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
9) 數據審計
兩個主要的數據審計任務是跟蹤對關鍵數據集的更改:跟蹤重要數據集元素的更改;捕獲如何/何時/以及更改這些元素的人員。數據審計有助于評估風險和合規性。
10) 數據應用
數據應用是指通過對數據湖的數據進行統一的管理、加工和應用,對內支持業務運營、流程優化、營銷推廣、風險管理、渠道整合等活動,對外支持數據開放共享、數據服務等活動,從而提升數據在組織運營管理過程中的支撐輔助作用,同時實現數據價值的變現。在基本的計算能力之上,數據湖需提供批量報表、即席查詢、交互式分析、數據倉庫、機器學習等上層應用,還需要提供自助式數據探索能力
數據湖的生命周期
三、數據中臺與數據湖的關系
大數據時代,數據量越來越多,數據形式日益復雜,而以數據倉庫為代表的、現有的數據存儲和處理技術無法滿足海量、多樣的數據處理需求的背景下產生的。“數據湖”是將復雜的事物具象化,偏技術一些,以一個形象的名字,反應了它在大數據存儲和大數據處理方面的優勢和能力。
數據湖作為一個集中的存儲庫,可以在其中存儲任何形式(結構化和非結構化)、任意規模的數據。在數據湖中,可以不對存儲的數據進行結構化,只有在使用數據的時候,再利用數據湖強大的大數據查詢、處理、分析等組件對數據進行處理和應用。因此,數據湖具備運行不同類型數據分析的能力。
數據中臺從技術的層面承接了數據湖的技術,通過數據技術,對海量、多源、多樣的數據進行采集、處理、存儲、計算,同時統一標準和口徑,把數據統一之后,以標準形式存儲,形成大數據資產層,以滿足前臺數據分析和應用的需求。
數據中臺更強調應用,離業務更近,強調服務于前臺的能力,實現邏輯、算法、標簽、模型、數據資產的沉淀和復用,能更快速的相應業務和應用開發的需求,可追溯,更精準。
用漫畫來形容就是:
總結
以上是生活随笔為你收集整理的数据中台与数据湖概念认知的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: MLX90640开发笔记(六)红外图像伪
- 下一篇: Hexo折腾之改用Valine评论系统
