浅谈湖仓一体化对上层机器学习业务的促进
背景概述
最近湖倉一體化的概念在大數據圈子突然躥紅,知乎上很多大神已經分析了湖倉一體化主要的革新點,今天主要介紹下湖倉一體化對機器學習業務的影響。
還是簡單講下“湖”和“倉”的區別。
?
湖有點像一個開放的儲物空間,可以存放結構化數據、非結構化數據、半結構化數據,存儲成本很低,很靈活。倉更像是一個有無數小格子的儲物間,所有數據需要按照要求放到小格子里。
湖的優勢是很靈活,什么樣的數據直接扔進去就好了,但是如果想查某個結構化數據,甚至做ETL工作,就會效果很差,因為所有數據都是隨機擺放的。倉的優勢是數據結構化做得很好,查數據很方便,但是構建一個個小格子,成本高,而且只能存放結構化數據。
在湖倉一體化之前,構建大數據體系需要在湖和倉直接二選一才行。Hadoop體系是標準的數據湖體系,Big query、MaxCompute都是數倉體系。
湖倉割裂的影響
那么湖倉割裂的狀態會帶來什么問題呢?為什么今天大家開始討論湖倉一體化了。以機器學習在推薦業務的應用為例說明。
以視頻推薦的場景為例:
大家知道一個完整的推薦系統,需要做大量的用戶行為日志分析以及待推薦對象的特征提取工作。行為日志分析是一個經典的數倉操作,需要對用戶的歷史數據做大量的結構化處理,并且通過ETL加工特征。
另外因為被推薦對象是視頻,是典型的非結構化數據,需要做一些圖像和語意相關的解析,這些操作是無法通過數倉完成的,需要借助數據湖來實現存儲,再由算法腳本提取圖像和文本特征。
在倉和湖割裂的條件下,一個常見做法是將數據湖中的非結構化數據提取特征并結構化,然后將結構化的數據遷移到數倉體系內去做最終的特征向量拼接,并且訓練推薦業務模型。在這種模式下,需要同時運維兩種數據存儲模式體系,并且需要做大量數據遷移工作,費時費力。
湖倉一體下多結構態的機器學習業務
語音、文本、視覺相結合的解決方案在人工智能領域叫做多模態方案。在湖倉一體化的背景下,可以支持機器學習的數據以多種結構態存儲并使用,所以我起了個名字,湖倉一體化可解決“數據多結構態”的問題。
在湖倉一體化的背景下,未來機器學習業務可以更多的去探索不同結構態數據間的建模打通工作。可以輕而易舉的在一次模型訓練中,即應用圖像、語音、文本數據,也應用到數倉結果數據。這樣無疑是對偏上層的機器學習業務的一種推動。
隨著湖倉一體化的存儲統一,K8S后續可能在調度層面的統一,可以預見的是機器學習業務后續會在整個計算存儲的工程層面實現操作更簡化。
具體關于湖倉一體化的發布會內容可以看以下鏈接,謝謝:
https://www.aliyun.com/activity/bigdata/2020yunqi
總結
以上是生活随笔為你收集整理的浅谈湖仓一体化对上层机器学习业务的促进的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 黄金价格预测:如何将时序数据处理成监督学
- 下一篇: 解析:IEEE批准首个联邦机器学习框架标
