湖仓一体化的路,很多人都只走了一半
2022已至,如果回看2021,這一年無疑是數據的價值進一步體現的一年。數據應用場景不斷豐富,從工業、交通、金融到制造,幾乎無處不在。當然,數據價值的迅速提升也給開發者和相關企業帶來了新的問題。數據量的爆發讓存儲成本和數據預處理需求增加,數據使用場景的拓寬和大量的結構化數據和非結構化數據讓實時處理難度變高,這對平臺和用戶都提出新的挑戰。
站在數據時代的潮頭,新興技術和挑戰在此期間集中爆發,而湖倉一體理念正幫助數據產業解燃眉之急。為什么這樣說呢?這件事情可能要從數據倉庫與數據湖最初的發展說起了。
解構數據時代,湖倉一體漸成風潮
放眼上個世紀,數據倉庫已經能夠解決絕大多數的數據問題。彼時,數據二字還代表著BI、儀表、趨勢圖、報表等結構化數據,這些數據大多來自企業內部和業務系統,極少來自外部。而結構化數據在分析時難度較小,數據倉庫就可以滿足企業需求。大約十年前,音頻、視頻、文本等非結構化和半結構化數據激增,以往數據倉庫的問題便凸顯了出來,用戶對于數據更高的要求和數據多樣性的矛盾逐漸凸顯,這種情況下,數據湖便登上了技術的舞臺。
與數據倉庫相比,數據湖的價值在于,其能夠很好的存儲各類原始數據,通過對歷史數據的分析生成新的數據維度,此外,集中存儲企業全部數據,幫助企業完成信息追蹤和一致性保障。但是數據湖的問題也一樣存在的,其本身并不支持事務,SQL性能也很差,數據倉庫依然不能舍棄。而那些由數據倉庫轉型建設了數據湖的企業們便開始找尋一個平衡的辦法,把ELT流程變為一座橋,將數據湖與多個數據倉庫溝通起來。
這種模式看似很好的解決了數據的處理難題,也讓數據湖和數據倉庫各司其職發揮作用,那為什么大家又會提出湖倉一體化的理念呢?這座“橋”難道不能讓數據湖和數據倉庫“一體化”嗎?遺憾的是,這種做法短期確實可以發揮作用,但時間一長各種弊端就開始出現。
湖倉各自獨立帶來的是運維和架構的復雜性,一座橋也使得整體運營效率不高,再伴隨企業需求的日益增加,湖倉規模的逐漸加大,企業在運維和成本方面的付出與日俱增。久而久之,湖倉分離的情況會逐漸成為壓垮企業的稻草。
那么湖倉一體究竟意味著什么呢?擁有極速云數倉OushuDB的偶數科技對此進行了解釋,湖倉一體意味著把數據湖與數據倉庫真正融為一體。底層類似數據湖存儲了結構化、半結構化、非結構化的各種數據,中間進行統一的加工處理,支撐起上層BI、AI、數據科學等各種應用。
放棄一道橋,得到的是江湖浩瀚,海闊天高。
湖倉一體化的價值在于其天然具備了數據湖和數據倉庫的特性,并彌補了二者的缺點。其采用的存算分離架構,能夠彈性的無限擴展,無論是結構化還是非結構化數據,均可通過HDFS和S3完成處理。這樣的話不僅僅解決了架構復雜性難題,就連數據孤島、數據共享、運維和成本等大量難題也因此迎刃而解。而且由于如今云原生技術的越發成熟,在其支持下,湖倉一體更是進一步蛻變成了數據處理的真正基石。
?六大關鍵特性,打開湖倉一體大門
即便是湖倉一體本身,其構建也有著不同的路徑選擇。對于一些大廠而言,他們在數據湖和數據倉庫方面有著很大的歷史包袱,因此在湖倉一體的過程中會將兩種產品結合起來打造一體化解決方案。而成立于2016年的偶數科技卻不必背上這一包袱。他們打造的湖倉一體架構更貼近于技術發展潮流。
偶數科技的湖倉一體架構利用數據倉庫的特性實現了數據湖的特性,能夠支持結構化數據和非結構化數據的海量存儲,保持存算分離,對海量數據節點能夠實現彈性擴展。同時,偶數科技還通過可插拔存儲實現了對于S3、HDFS及自研高性能表存儲Magma的支持,以此實現了對于結構化、非結構化和半結構化數據的兼容。這就意味著避免了多份數據、多個集群與多個接口的問題,只需存一份數據,即可解決數據處理問題。
在業界來看,數據湖技術已經成熟,但數據倉庫依然有各自的解決方案。因此在湖和倉之間如何更好地共享數據,如何支持用戶的業務才是湖倉一體架構關注的核心問題。
偶數科技認為湖倉一體化的本質是一個平臺,其湖倉一體具備六大關鍵特性,這成為了其湖倉一體產品的關鍵要素。
湖倉一體平臺應該具備的特點
1. ?? 低成本的全量數據的單一存儲;
2. ?? 高性能的數據引擎,其相比Hadoop引擎快30余倍;
3. ?? 良好的可擴展性與敏捷性,這里主要是采用了存算分離的架構,進一步提升了高集群擴展性,可插拔存儲框架能夠支持不同存儲系統或者格式;
4. ?? 事務的一致性保證,支持事務一致性保證ACID,其能夠簡化程序應用負擔的,讓用戶不再需要考慮事務問題;
5. ?? 多樣化工作負載,支持所有工作場景與負載場景,包括各類數據倉庫的BI傳統報表以及數據湖的AI應用等,均可在同一平臺上實現支持;
6. ?? 易于實現的數據治理,能夠通過數據治理保障數據質量,更好的支持應用。
三大優勢,奠定湖倉一體落地基礎
在六大特性之外,偶數科技的湖倉一體產品還有三大技術優勢存在。
傳統架構與偶數湖倉一體架構對比
首先便是在成本方面的優勢。在傳統的湖倉產品中,運維需求大,人力成本高,大量的集群、節點、硬件投入疊加,需要在運維方面投入的成本極高;而OushuDB是云原生數據庫,其采用了虛擬計算集群技術實現資源彈性伸縮共享并按需分配的,數據資源利用率得到極大提升,能夠降低企業的硬件投入與人員成本。
其次便是方便于用戶遷移。OushuDB是一種開放的架構,很多協議采用了業界標準協議,能夠與標準產品及技術相兼容,其中包括了對標準語法、標準JDBC、ODBC連接等支持,其能夠兼容客戶大量的現有平臺,而不必全盤推翻重構。
最后便是在性能方面的提升。湖倉一體化意味著對湖倉各自一體進行了整體提升。湖倉一體架構簡潔,用戶可以通過一個平臺解決大量的中間層難題,降低運維工作量、工作復雜度、人員及管理成本,整體提升架構性能。
當然,湖倉一體化有著廣闊的應用空間,而在行業部署時要基于各個行業對于IT環境及行業本身自己IT能力情況進行綜合考量。數據應用的成熟度,在不同行業表現出來的狀態不盡相同。銀行、保險、證券、運營商、電力等行業對IT應用比較成熟,其IT基礎能力也較強。很多企業已經走在了數字化轉型前列,會比較容易接受湖倉一體產品。偶數的很多產品便在這些行業有所落地。但是長遠來看,未來所有的企業都需要湖倉一體平臺,因為數據不會單純只有結構化數據,一定會有非結構化數據的,這是數據化轉型必須要完成的命題。
從IT時代走進DT時代,原本結構化數據的獨唱也迎來了非結構化數據競演,數據的發展走向了湖倉一體,而企業們也必須隨之而改變。基于湖倉一體,尋找未來答案,偶數科技在做的事情,就是在讓更多企業找到數字化轉型關鍵時期的那個答案。
總結
以上是生活随笔為你收集整理的湖仓一体化的路,很多人都只走了一半的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: F5:2022年应用交付和安全领域趋势展
- 下一篇: 2017双11技术揭秘—阿里数据库进入全