持续定义Saas模式云数据仓库+实时分析
簡介:?從實時分析的價值、場景和數據流程,以及用戶對平臺能力要求展開,講述云數據倉庫MaxCompute的產品能力優勢 ,面對實時分析場景的能力演進要求。進而以實時分析典型場景的全數據流程處理、建模和分析的最佳實踐,講解MaxCopute+Hologres的解決方案,展現強強組合應的能力優勢。
一、云數據倉庫概述
數據倉庫的定義是面向主題、集成性、穩定性和時變性,用于支持管理決策。 數據倉庫的意義在于對企業的所有數據進行歸集,為企業各個部門提供統一的, 規范的數據出口。
數據倉庫(模型)本質是人收集和存儲數據,認識數據,組織和管理數據,使用數據決策的最佳實踐形成的方法論。 模型本身與在哪、用什么技術無關。 但邏輯模型和物理模型在最終方案中又是緊密結合的。用戶需要的是數倉的業務能力和技術能力。
數據倉庫的核心能力和價值包括:采集同步、加工、存儲、建模、治理、查詢。但是為了實現數據倉庫的能力和價值必須要具備的基礎包括: IDC機房、部署、開通、高可用、安全、日常運 維、擴容。這些構成了數倉總擁有成本。從各個角度看,總成本=核心能力成本+基礎成本 =產品成本+服務成本 =當前成本+長期成本+演進成本。
MaxCompute是SaaS模式企業級云數據倉庫。SaaS模式云數據倉庫具有如下特點:? 開箱即用 ? 大規模高性能 ? 免運維、專家優化 ? 靈活擴展 ? 數據服務 ? 豐富完善的數倉能力 ? 高可用,容災備份 ? 極致安全 ? 低成本 ? 能力快速演進。能夠為企業免去擁有數據倉庫的基礎建設成本、維護成本、長期演進成本等非核心能力之外的投入。
SaaS模式云數據倉庫可能的應用場景舉例如下:
? 實時數據入倉和分析決策
? 業務運營場景-交互式業務指標計算、查詢
? 各行業搭建數據倉庫-流批一體、湖倉一體 ? 云上彈性擴展大數據計算和存儲。
SaaS模式云數據倉庫的產品優勢包括:
? 云原生極致彈性:云原生設計,無服務器架構,支持秒級彈性伸縮, 快速實現大規模彈性負載需求
? 簡單易用多功能計算:預置多種計算模型和數據通道能力,開通即用
? 企業級平臺服務:支持開放生態,提供企業級安全管理能力。與阿里 云眾多大數據服務無縫集成
? 安全:多租戶環境下安全控制能力強
? 大規模集群性能強、全鏈路穩定性高,阿里巴巴雙11場景驗證。
SaaS模式云數據倉庫推薦場景和產品組合例如:
? 實時分析場景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
? 機器學習場景-MaxCompute+PAI+DataWorks。等。
今天重點講解實時分析場景。
云數據倉庫包含的面向用戶的功能和數據流程,如下圖所示。開通MaxCompute云數倉即可擁有如下全部功能和能力。
二、實時分析場景與價值
再提一遍大數據的5V能力
1 容量(Volume) 是指大規模的數據量,并且數據量呈持續增長趨勢。目前一般指超過10T規模的數據量,但未來隨著技術的進步,符合大數據標準的數據集大小也會變化。
2 速率(Velocity) 即數據生成、流動速率快。數據流動速率指指對數據采集、存儲以及分析具有價值信息的速度。因此也意味著數據的采集和分析等過程必須迅速及時。
3 多樣性(Variety) 指是大數據包括多種不同格式和不同類型的數據。數據來源包括人與系統交互時與機器自動生成,來源的多樣性導致數據類型的多樣性。根據數據是否具有一定的模式、 結構和關系,數據可分為三種基本類型:結構化數據、非結構化數據、半結構化數據。
4 真實性(Veracity) 指數據的質量和保真性。大數據環境下的數據最好具有較高的信噪比。
5 價值(Value) 即低價值密度。隨著數據量的增長,數據中有意義的信息卻沒有成相應比例增長。而價值同時與數據的真實性和數據處理時間相關,見圖。
其中最關鍵的一點是:越接近數據源,越早進行分析和決策,越能發揮數據價值。
實時分析的場景可以用以下兩個類比演化出來:
類比1:大酒店同時具備其他綜合業務,發展出餐 飲(實時)業務,用以更好的發揮協同作用。
演化1:以數倉分析為主場景,根據業務實時性需 求進行實時分析,構建實時通道和實時交互式分析, 形成Lambda架構。
類比2:飯店從餐飲(實時)業務發展而來, 需要更好的外圍支持作用,并向綜合性發展。
演化2:以實時分析為主場景,形成流式架 構,又需要能從數倉快速提取數據,和數據 源回放,形成kappa架構,后續還要考慮實 時數據和模型如何入倉。
詳細分析這兩種演化場景如下:
以數倉分析為主場景,根據業務實時性需求進 行實時分析,構建實時通道和實時交互式分析, 形成Lambda架構 例如IOT設備監控分析,下發策略,設備接收 后上報新數據立即進行分析,對比之前的結果, 反復分析調優。
以實時分析為主場景,形成流式架構,又需要能從 數倉快速提取數據,和數據源回放,形成kappa 架構,后續還要考慮實時數據和模型如何入倉 例如欺詐監控,必須第一時間獲取分析結論,并關 聯標簽精準識別,最后實時數據落入數倉與其他數 據融合形成知識。
進一步的,實時分析的主要能力要求如下:
1 應用生態:
? 開發者生態 ? 豐富的API、SDK ? BI工具無縫對接 ? 流式處理工具和分布 式消息隊列無縫對接。
2 極速查詢響應:
? 毫秒級響應速度,輕 松滿足客戶海量數據 復雜多維分析需求 ? 千萬QPS點查 ? 上千QPS簡單查詢。
3 實時存儲:
? 億級寫入TPS ? 寫入即可查詢。
4數倉查詢加速:
? 直接分析 ? 無數據搬遷 ? 無冗余存儲 ? 統一權限。
5 聯合計算:
? 統一建模方法 ? 統一元數據 ? 統一的管控治理體系 ? 分層劃域架構下的演 進和整合。
三、MaxCompute云數倉+實時分析
常見的Lambda架構有三大問題。
首先,一致性難題: ? 兩套代碼,兩套邏輯 ? 流和批語義完全不同 ? 離線層和實時層數據存儲和變換方式完全不同。
第二,環環相扣、多套系統、運維復雜、成本高昂: ? 多個不同的系統 ? 大量的同步任務 ? 資源消耗巨大 ? 不同系統標準規范不統一。
第三,開發周期長、業務不敏捷: ? 錯誤難以診斷和定位 ? 修訂、補數周期長 ? 無法自助實時分析 ? 無法響應變化 ? 分析到服務的轉化周期長。
以搜索推薦精細化運營的場景案例進行分析,開源方案的能力分散。如下圖所示,KVStore,MPP,實時數倉,數倉具有多種能力,最好能有一種技術方案將多種能力統一于一個引擎。將存儲、實時數倉、交互式分析、點查、OLAP分析等能力集于一身。MaxCompute Hologres即是這個產品和解決方案。
MaxCompute Hologres將實時分析的架構變得簡單和高效。以實時分析為中心設計, Hologres能夠實現實時寫入和實時分析、查詢。MaxCompute Hologres提出云原生HSAP架構中,一份數據同時用于實時分析、在線服務和實時離線數據統一存儲,與SaaS模式云數據倉庫MaxCompute完美結合。
另一種場景,MaxCompute Hologres可以作為云數據倉庫MaxCompute分析加速能力模塊和ADS層建模能力模塊。無數據搬遷、數據分析效率高。ADS層建模+服務統一、OLAP增強,如下圖所示。
再看kappa架構,Kappa架構是基于流式架構的升級,需要回放和關聯數倉,后續還要考慮實時數據和模型如何入倉。開源方案實時數倉有以下問題:實時成本高、開發周期長、業務支持不靈活。
Kappa架構的原理就是在Lambda 的基礎上進行了優化,將實時分析和流部分進行了合并,將數據 存儲和通道以消息隊列進行替代。因此對于Kappa架構來說,依舊以流處理為主,但是數據卻在數據湖 層面進行了存儲和簡單建模,當需要進行離線分析或者再次計算的時候,則將數據湖的數據再次經過消息隊 列重播一次。Kappa架構看起來簡潔,但是施難度相對較高,尤其是對于數據回放部分。
如下圖所示,MaxCompute Hologres可以將實時、離線、分析、服務一體化,做到了實時離線聯合分析,冷熱溫三類數據全洞察。
四、實時分析案例
針對實時分析的常用場景,Saas模式云數據倉庫MaxCompute在擁有了Hologres后提出了:實時、離線、分析、服務一體化方案。即前文描述的Lambda架構簡化、交互查詢增強、kappa架構增強,實時離線聯合分析,冷熱溫三類數據全洞察的方案能力。
此方案適用于電商、游戲、社交等互聯網行業數據化運營,如智能推薦、日志采集分析、用戶畫像、數據治理、業務大屏、搜索等場景。
方案優勢:阿里巴巴最佳實踐的大數據平臺,1)技術領先性;2)降本提效;3)高附加值業務收益;
涉及產品: 日志服務SLS、數據傳輸DTS、DataHub、實時計算Flink、交互式分析、云數倉MaxCompute、數據治理DataWorks、Quick BI 報表、 DataV大 屏、ES搜索、機器學習PAI。
小影是一款原創視頻、全能剪輯的短視頻社區APP,面向大眾提供短視頻創作工具,包括視頻剪輯、教 程玩法、視頻拍攝,谷歌應用商城收入榜前五,全球累計用戶突破8.9億。
用戶標簽數據開發:客戶通過 MaxCompute 針對每 天APP產生的客戶基礎屬性數據、 行為日志數據、內容數據等進行 計算,每天離線更新用戶標簽的 數據,支持營銷業務的使用。
用戶畫像實時洞察:客戶基于MC離線計算好的用戶標 簽,通過MC-Hologres進行多標 簽、多維度的實時分析,了解用戶 屬性標簽與內容標簽之間的關聯性, 洞察交叉銷售機會,并通過人群圈 選,進行APP消息PUSH。
實時視頻推薦:客戶通過Flink + MaxCompute +MC- Hologres +PAI搭建個性化 實時推薦系統,基于用戶特征和實 時行為特征,實時推薦個性化的短 視頻內容。
?
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的持续定义Saas模式云数据仓库+实时分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 130 秒揭秘 EDAS 3.0 如何平
- 下一篇: mPaaS:全新移动开发平台,只为打造性