大数据平台的3个核心功能
導讀:大數據平臺可以分為操作數據存儲(ODS)、數據倉庫(DW)和數據集市(DM)三層,分別對應著數據清洗、數據管理和數據應用這三個核心功能。
作者:蔡主希
來源:大數據DT(ID:hzdashuju)
▲數據架構示意圖
01 原始數據清洗
操作數據存儲(Operational Data Store,ODS),又被稱為貼源層,是原始數據經過ETL(Extract-Transform-Load)清洗后存儲的位置。ODS通常有如下幾個作用。
在業務系統和數據倉庫之間做了隔離,將業務系統產生的原始數據備份的同時,保證了兩個系統之間數據的一致性。
存儲了業務側的明細數據,方便后續的查詢和加工以及報表的產出。
完成數據倉庫中不能實現的一些功能,相比于DW和DM層通常使用Hive查詢,ODS一般利用更底層的編程語言加工而成,可以實現一些更復雜和更高效的ETL操作。
此外,ODS層保留了大量的歷史明細數據,通常約定只能增加不能修改,利用時間分區的方式進行區分。
02 數據倉庫管理
數據倉庫(Data Warehouse,DW)是企業級數據集中匯總的位置。DW層最大的特點是面向主題,根據不同的主題設計表的結構和內容,這樣做的好處是排除了與主題無關的冗余數據,提高了特定主題下的查詢和加工效率。
另一方面,數據倉庫作為連接原始數據和標簽之間的中間層,必須保證數據質量,包括唯一性、權威性、準確性等。
以風控主題為例,DW層中通常會包括授信、支用、還款、催收等一系列數據,方便后期相關標簽的計算。另外,還會有一些公用的維度表被存在與DW層平行的DIM層中,這些表通常是一些城市、日期類的字典數據,貫穿多個主題數據。
03 數據標簽應用
整個數據平臺的最上層是數據集市(Data Market,DM),也是與風控人員聯系最緊密的一層。顧名思義,數據集市就是將數據倉庫中的主題數據根據不同的業務需要挑選出來,構成特定的業務場景標簽。
例如想構建與客戶逾期表現相關的標簽,只需要將DW層中與還款相關的表抽取出來加工即可,這樣不僅結構清晰,還保證了標簽計算的效率。
由于DM層的數據標簽與業務聯系較為緊密,建議在DM層邏輯設計的初期,讓更多的業務人員參與進來,這樣才能避免后期技術與業務在標簽計算口徑上不統一的問題。
最后想補充說明的是,由于大數據平臺的計算鏈條較長,且充斥著大量的數據處理步驟,在實際生產中平臺的監控和預警機制至關重要,例如對于上下游依賴關系的判斷、每個時間分區數據量的監控、郵件和短信報警等,都是把控數據準確性和時效性的必要手段。
關于作者:蔡主希,研究生畢業于哥倫比亞大學統計專業,資深智能風控算法專家。現就職于某具有“全牌照”業務的綜合性國際化資產管理集團,負責人工智能算法在金融科技領域的研究和落地。曾任兩家頭部互聯網公司金融部門風控算法專家,以及北京大數據研究院金融研究員。
本文摘編自《智能風控與反欺詐:體系、算法與實踐》,經出版方授權發布。
延伸閱讀《智能風控與反欺詐》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:頭部金融企業風控算法專家撰寫,院士高度評價,系統講解智能風控和反欺詐在信貸風控領域實踐全流程。
劃重點????
干貨直達????
65歲的編程語言重回Top 20,65歲的程序員還沒退休嗎?
終于有人把準確率、精度、召回率、均方差和R2都講明白了
終于有人把Scrapy爬蟲框架講明白了
編程語言哪家強?4種數據分析領域語言優缺點對比
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數據?|?云計算?|?數據庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數學?|?算法?|?數字孿生
據統計,99%的大咖都關注了這個公眾號
????
新人創作打卡挑戰賽發博客就能抽獎!定制產品紅包拿不停!總結
以上是生活随笔為你收集整理的大数据平台的3个核心功能的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 普通码农和技术大牛之间,只差这10本书(
- 下一篇: C++20 要来了!