数据中台和数仓的关系
傳統數倉
傳統數倉有幾個特點:
傳統數倉需要拷貝數據的重要原因是因為基于數據和存儲需要盡可能的近。所以我們需要把MySQL等數據源的數據同步到數倉,才能進行進一步處理,另外傳統數倉更關注的是數據的歷史狀態,所以導致數據規模龐大。 數倉本身也具備計算能力,同時也可以作為存儲供其他計算系統使用。
數據中臺
數據中臺設計立足點本身是數據和存儲分離的。那就意味著,數據中臺本身并沒有數據,數據來源是其他的的,比如傳統數倉,業務數據庫,用戶在中臺上傳的文件(臨時使用),各個業務系統的API(瞬時,我們不關心API之前的數據結果是什么樣的)。因為數據中臺擁有這些數據源的適配器,所以相當于建立了互聯管道。
我們知道數倉的優勢是有元數據,通過表的方式很好的規整了數據。數據需要加工,所以一般數倉是有分層的,往上走一層,數據信息損耗就高一些。數據中臺也有一個全局的元數據管理系統,管理也是以表為主,粒度到字段級別。數據中臺這個元信息包含了各個子存儲的元信息,以數據中臺需要的形態進行組織。
數據中臺的元數據其中承載的一個重要功能是數據地圖,雖然在數據中臺中,修建了通往所有數據的道路 但是當用戶進來的時候 他無法知道具體某個數據的地址 也就沒辦法利用這些修好的道路。數據地圖就是解決這個問題 我們需要結合自然語言處理,檢索技術,目錄分類技術,機器學習以及數據規范化來幫助找到數據地址。數據地址從來都不是面向人類有好的。
通過數據中臺的數據地圖,以及數據中臺到各數據源的建立好的管道,那么我們就可以很好的找到我們要的數據以及對他們進行關聯和處理,分析,甚至進一步成為機器學習的素材。
數據地圖和傳統數倉元數據的區別在于,
結論
數倉是數據中臺的一個重要組成部分,也是元數據的一個重要來源,但是隨著技術的發展,數據和存儲必定是分離的,這就需要一個新的元信息系統(數據地圖)來進行承載。
總結
以上是生活随笔為你收集整理的数据中台和数仓的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AJAX框架简笔画风景简单,好看简单的简
- 下一篇: guacamole 源码_guacamo