云湖共生,下一代数据湖来了?
導語:應用導向呈現數據價值,阿里云在數據湖上的創新實踐,支撐起數據快速洞察和數據輸出迭代。
數據湖并非新概念,最近又被越來越多的人提及,成為新晉網紅,并呈現出千人千面的現象。
在今年云棲大會上,當云原生數據湖體系在線上正式發布時,就吸引了企業的關注。如果不是2020特殊時期,在10月23日舉行的線下“數據湖高峰論壇規模估計會擴大幾倍。
在阿里云智能存儲產品資深總監陳起鯤看來,線下數據湖高峰論壇提供了與用戶更多的直接互動交流機會,他希望“云原生+數據湖倉共生”給更多企業帶來的技術演進和技術價值。
此時,阿里云發布的業內首個云原生企業級數據湖解決方案成為他們的新選擇,這套方案將大規模應用于今年雙11,支撐阿里巴巴經濟體及百萬客戶全面上云。
數據價值的兩極化
2020年,數據量繼續爆發式增長,數字化轉型再次成為行業的熱點,我們可以切身感受到基于云計算、大數據、AI的“新基建”帶來的社會效應。
數據需要更深度的價值挖掘,在陳起鯤看來,數據的價值呈現兩極化的特征,一是及時發現,實時分析快速促進業務發展;二是長期存放,數據累積起來,探索數據后隱藏的規律,統一分析其價值,為業務發展提供參考。
新的數據價值給企業帶來更多智能創新應用,比如增長黑客、推薦系統,用戶行為分析,AIoT帶來的更多模型,這也意味著IT基礎設施的變革。
以往的計算和存儲耦合的架構就會呈現資源利用率非常低的狀況,數據是不斷累積、不斷增長,但計算的算力要求可能是峰谷,為了存儲更多的數據購買更多的計算,擴容的時候必須一起擴容,最終導致穩定性不是最優,兩種資源無法獨立擴展,使用成本也不是最優。
當然,在傳統架構中,原始數據統一存放在HDFS系統上,引擎以Hadoop和Spark 為主,受到開源軟件本身能力的限制,傳統技術無法滿足企業用戶在數據規模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求。
重新定義下一代數據湖
數據湖雖然是存在很久的概念,但最近不斷被提及的關鍵還在于應用需求,隨著企業業務演進,需要更低廉的數據存儲成本、更精細的數據資產管理、可共享的元數據、更實時的數據更新頻率以及更強大的數據接入工具,基于此,阿里云正式發布了云原生企業級數據湖解決方案。
- 數據湖統一存儲用云上對象存儲OSS取代HDFS,提升數據規模、降低存儲成本、實現計算和存儲分離架構;
- 數據湖構建(DLF)服務提供統一元數據和統一的權限管理,支持多套引擎接入;
- EMR上Spark等計算引擎的云原生化,可以更好的利用彈性計算資源;
- 云上的數據開發治理平臺 Dataworks解決了數據湖元數據治理、數據集成、數據開發等問題。
在陳起鯤看來,阿里云云原生的數據湖解決方案重新定義了下一代數據湖體系,更具有企業特性。
首先必須承載移動互聯網、IoT業務的核心生產環境。對于企業而言,新的互聯網應用的生產環境,必須是企業級的生產環境。由移動應用或社交媒體應用產生的PB級數據,搬到分析引擎進行實時分析是不可能的,必須在生產環境中進行大數據分析。
其次必須有承載EB級別的數據量的數據湖。通過阿里云對象存儲OSS作為大數據存儲,大文件瞬時Rename、 緩存加速等都不是問題。
同時要做到與業務強耦合的數據實時分析,需要有彈性的算力,還要有彈性性能SLA的保證,阿里云對象存儲 OSS 是數據湖的統一存儲層,因為存算分離的架構,可以選擇不一樣的計算引擎,同時可存儲任意規模的數據,非常適合企業基于OSS構建數據湖。
另外在這次論壇中,阿里云還發布了OSS加速器,不同與基于傳統集群自建的緩存,OSS加速器彈性伸縮,其能夠每TB提供200MBps的吞吐能力,線性擴展,隨時可以開啟。同時,基于OSS智能元數據架構,OSS加速器提供了傳統緩存方案不具備的一致性,當OSS上文件被更新時,加速器能自動識別,確保引擎讀取到的都是最新數據。
再者必須是安全的存放、統一的管理,確保業務安全和數據安全。阿里云全鏈路加密、云上多層保護,自帶防御功能這些都可以保證云上數據的安全性,再加上全球部署的集群、端到端的CRC和主動排查故障的硬件能力,互聯網應用的生產環境確保業務安全。
管得住、用的上、用的好
數據在哪里,分析就在哪里,如何存儲和分析數據,從數據當中提取出規律和價值,阿里巴巴集團副總裁、阿里云智能計算平臺事業部負責人賈揚清認為,管得住、用得上,用的好,這是阿里云構建數據湖體系的核心,這些都來自于客戶現場的真實需求。
管得住數據指的就是通過OSS構建數據湖,通過管理元數據能夠讓我們知道數據在什么地方,在未來面向海量數據的數據湖場景下,對象存儲OSS非常適合企業構建海量、高效、安全的數據湖。
用得上數據需要通過多樣化計算引擎,無論是傳統的、開源的引擎還是阿里云通過自己的應用構建的橫向計算引擎,可對接業務應用、各類計算分析平臺,讓用戶更容易的用上數據。
數據湖的對接主要體現在元數據與存儲引擎兩個方面,元數據為所有用戶所共享,提供統一的元數據訪問接口,各個引擎使用定制化的元數據訪問客戶端來訪問元數據,元數據服務為各個用戶提供租戶隔離保證和認證鑒權服務。
阿里云數據湖OSS和數據倉庫MaxCompute可以快速實現企業想要的湖倉一體方案,實現了數據湖和數倉之間的無縫流轉,統一智能化管理和調度,打通了數據存儲和計算的不同的層面,極大的提升了平臺化服務能力,真正實現用的好數據。
全面向云原生演進
阿里巴巴集團副總裁、阿里云智能數據庫產品事業部負責人李飛飛認為,從傳統的自建數據分析系統、傳統大數據平臺、傳統數倉、傳統分析型數據庫等維度,到極致彈性、低成本、服務化這三個關鍵詞定義的云原生數據庫時代。
具體來講就是將Serverless、存儲計算分離、資源池化、容器化部署等技術整合起來,提供云原生的數據服務,降低了客戶的門檻和學習成本。
與傳統大數據解決方案不同的是,通過Serverless技術提供一鍵建湖,管理、建湖、計算分析一體化的服務,采用DLA對接OSS提供開放存儲服務和開放分析計算服務,多種數據源通過一鍵建湖的方式對原數據進行自動發現和管理,對下利用OSS提供低成本、高效能、強安全的云原生存儲能力,對上通過數據湖管理以及緩存加速,以及利用社區的能力、緩存加速的能力,集成Spark和Crystal兩種引擎提供交互式查詢和復雜的ETL計算分析。
用Serverless方法調用計算資源,企業在用DLA時真正做到對多元異構數據自動管理、自動發現、按需按量配置資源,盡可能降低成本。
眼下,IT系統已經從成本中心變為創新中心,云和湖共生是下一代數據湖2.0的架構,我們都熟知的英語學習平臺流利說從2016年上線高效AI英語老師,流利說自主研發的APP定制板塊中以人工智能課的形式推出,基于AI深度學習的自適應課程系統,給用戶系統化推出英語學習解決方案,截至到2020年6月30日,已經累計大概504億句的錄音句子數量,用戶的練習語音時長已經累積到了37億分鐘。
面臨這么大的語音數據的挑戰,流利說在阿里云上基于OSS進行架構設計,確保數據存儲的方案簡單高效,基于阿里云的數據湖架構高效建設數據湖體系,支撐整個數據迭代。
某國內知名社交游戲公司基于阿里云數據湖方案,通過日志服務SLS,將全球數據實時采集加工后,投遞到OSS統一存儲。利用OSS海量彈性能力冷熱分層,通過EMR和DLA對接OSS,搭建存算分離的大數據架構,實現千萬日活的玩家鏈路智能推薦實時分析,實時渠道統計,精細化運營,幫助公司提升了30%的用戶留存率。
目前,已有幾千家企業在阿里云上構建云數據湖,數據湖就應該是不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施;以數據為導向,實現任意來源、任意速度、任意規模、任意類型數據的全量獲取、全量存儲、多模式處理與全生命周期管理;并通過與各類外部異構數據源的交互集成,支持各類企業級應用。
著眼未來,如果是云原生的企業,可以享受到大數據分析的紅利;對于更多企業而言,上云有不同階段,需要云上數據湖和云下數據連通,通過混合云存儲或者混合云產品把客戶的線下數據和公共云的數據打通,統一在云端管理、統一分層,在云上對接不一樣的計算引擎。在數據驅動的時代當中,阿里云將助力客戶快速迭代,協同創新。
原文鏈接:https://developer.aliyun.com/article/777636?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的云湖共生,下一代数据湖来了?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flink State 误用之痛,你中招
- 下一篇: 飞天大数据平台助力轻松筹数字化运营