顶级公司在做数据挖掘,却忽略了数据管理平台,这个知识不得不看
一、文章概述
隨著大數據業務的不斷開展,各大互聯網公司都非常重視數據價值的挖掘。
在公司的日常運行中,各種數據分析挖掘技術,為公司發展決策和業務開展提供數據支持。作者所在的公司內部也形成了一套完善的數據治理方案,核心就是由大數據平臺+數據倉庫+數據治理平臺+數據監控平臺來實現數據治理。
?
- 大數據平臺支撐整個大數據的運行環境
- 數據倉庫整合各個業務線的數據,消滅數據煙囪
- 數據治理平臺提供統一指標管理、統一維度管理、統一數據出口管理
- 數據質量負責監控數據資產質量狀態、持續推動數據質量監控優化預警、實時監控預警
二、問題
公司業務的不斷發展加快了數據膨脹的速度,數據不一致等問題也隨之而來。同時業務部門的頻繁增加和剝離也會對數據治理帶來挑戰。
例如:不同業務線之間沒有統一的數據入口記錄和加工業務的發展過程;不同業務線的數據分析人員、數據開發人員,不同產品線之間缺乏有效的溝通,人員的流動也會產生一系列對接問題。
- 各個數據平臺和業務系統不同模塊的指標定義不一致
- 相同指標名稱對應計算口徑不一致
- 指標數據來源不一致
上述問題最終帶來的后果就是指標數據可信度低,從而嚴重影響數據分析決策。
數據治理不僅需要完善的保障機制,還需要具體的治理內容,比如我們的數據怎樣規范、元數據怎么來管理、每個過程都需要哪些系統或者工具來配合呢,這些都是數據治理過程中最實際的問題,今天我們將從數據治理的核心領域來解答這些問題。
?
如上圖所示,對于數據倉庫層,數據治理平臺綜合業務的組織形式、指標數據來源、指標定義規則、上層產品使用以及查詢的效率指導數據倉庫模型建設;
對于數據服務層的產品,業務元數據以及數據元數據均由數據治理平臺提供,這樣能夠保障產品獲得信息的一致性,同時也減少了對底層數據的侵入。
三、數據治理的核心領域
數據治理平臺的核心是保障數據一致性,同時在保障數據安全和一致性的基礎上,盡力提供高可用的數據服務分發能力。保障數據一致性需要在建設的過程中不斷進行抽象,形成具有相對單一功能的模塊,合理組織模塊層級間的關系。
提高數據治理平臺的可用性主要包括如下領域的治理。
?
如上圖所示,數據治理平臺主要包括數據存儲、數據查詢、元數據管理、安全管理、數據標準管理和數據應用管理等。
各領域之間需要有機結合,數據標準、元數據、數據質量等幾個領域相互協同和依賴。例如數據標準管理可以提升數據合法性、合規性,進一步提高數據質量,減少數據生產問題。
數據存儲
數據治理平臺的數據存儲主要包括:數據倉庫寬表/主題表層和數據應用層,存儲方式包括:Hive、Kylin、ClickHouse、Druid、MySql。
?
上圖所示的數據存儲中的數據加工過程,均由數據開發工程師負責;具體采用哪種存儲介質由數據架構師和數據開發工程師綜合所需的數據存儲空間、查詢效率、數據模型組織形式等因素共同決定。
但是后續的使用維護均由數據治理平臺來統一管理,主要是通過管理數據表元數據信息查詢實現。
數據存儲托管之后,數據表元數據信息變更監控、表數據生產(存儲空間、生產狀態及完成時間)監控、表數據波動(同環比)監控以及表的使用(模型構建及查詢效率等)監控及評估,都由數據治理平臺自動完成,任何信息的變動都會自動通知對應的負責人,以保障數據應用的安全和穩定。
(此處已添加小程序,請到今日頭條客戶端查看)
元數據管理
元數據分為業務元數據、數據元數據和操作元數據,三者之間緊密相連。業務元數據指導數據元數據,數據元數據以業務元數據為參考進行設計,操作元數據為兩者的管理提供支撐。
- 業務元數據:業務元數據是定義和業務相關數據的信息,用于輔助定位、理解和訪問業務信息。
- 數據元數據:數據元數據結構性數據元數據和關聯性數據元數據。
- 操作元數據:操作元數據主要指與元數據管理相關的組織、崗位、職責、流程,以及系統日常運行產生的操作數據。
數據表模塊管理
數據表模塊管理涉及數據庫信息和數據表信息。其中數據庫信息包括數據庫鏈接信息,數據治理平臺可以自動獲取維護后的數據庫信息所對應庫中的元數據信息。
數據表信息包括:表的元數據信息(引擎、字段、描述等)、表類型(事實表、維度表)、表的使用情況(是否被模型引用)、表對應的ETL、負責人、監控報警配置、樣例數據等。
上述信息為業務用戶提供指導,為模型管理提供數據支持,也為數據表和數據的穩定性提供監控和預警。
數據模型模塊管理
模型模塊管理能夠還原業務落地后數據表的組織關系,包括:數據表的關聯方式(join、left outer join、semi join等)、數據表的關聯限制(where)、模型ER圖、模型包含字段、模型字段與維度的綁定關系、模型與指標的綁定關系。
由于數據治理平臺主要是針對數據分析使用的,所以主要的模型包括維度模型中的星型模型和雪花型模型。
指標模塊管理
指標模塊管理包括基礎信息、衍生信息和技術信息管理。衍生信息包括關聯指標、關聯應用管理?;A信息對應的就是指標對應的業務過程信息,由業務人員編寫,主要包括指標名稱、業務分類、統計頻率、精度、單位、指標定義、計算邏輯、分析方法、分析維度等;
基礎信息中還有一個比較重要的部分是監控配置,主要是配置指標的有效波動范圍區間、同環比波動區間等,監控指標數據的正常運行。
技術信息主要包括數據類型、指標代碼,其中核心部分是指標與模型的綁定關系,通過配置對應的計算公式,或者還包括一些額外的高級配置,如二次計算、模型過濾條件等。
數據存儲模塊管理
在數據資源管理過程中,作者經過不斷地實踐慢慢摸索出一套適合大數據的存儲優化方法,可在元數據的基礎上,診斷、加工成多個存儲治理項目。
目前已有的存儲治理優化項有未管理表、空表、最近93天未訪問表、數據無更新無任務表、數據無更新有任務表、開發庫數據大于100GB且無訪問表、長周期表等。
?
生命周期管理的根本目的就是用最少的存儲成本來滿足最大的業務需求,使數據價值最大化。
- 周期性刪除策略:所存儲的數據都有一定的有效期,從數據創建開始到過時,可以周期性刪除已過有效期的X天前的數據。如果某些歷史數據可能已經沒有價值,且占用存儲成本,則可針對無效的歷史數據就可以進行定期清理。
- 測底刪除策略:無用表數據或者ETL過程產生的臨時數據,以及不需要保留的數據,可以進行及時刪除,包括刪除元數據。
- 永久保留數據:重要且不可以恢復的底層數據和應用數據需要永久保留,例如底層交易的增量數據,出于存儲成本與數據價值相權衡的考慮,需要永久保留,以備用于歷史數據的恢復與核查。
- 冷數據管理策略:冷數據策略是永久保留策略的擴展。永久保留的數據需要遷移到冷數據中心永久保存。
數據計算模塊管理
大型互聯網公司的集群上面有幾十萬甚至幾百萬的任務,每天存儲資源、計算資源消耗都很大。如何降低計算資源的消耗,提高任務執行的性能,提升任務產出的時間,是計算平臺和ETL開發工程師孜孜追求的目標,下面將重點介紹任務優化。
SQL/MR作業一般會生成MapReduce任務,在Hadoop中則會生成唯一一個job_id進行標識。
- Map傾斜:每個輸入分片會讓一個Map Instance來處理,默認情況下,以系統中一個文件塊的大小(默認為256MB)為一個分片。Map Instance輸出的結構會暫時放在一個環形內存緩沖區中,當該緩沖區快要溢出時會在本地文件系統中創建一個溢出文件,即Write Dump。在Map讀數據階段,可以通過“SET odps.mapper.split.size=256”來調節Map Instance的個數,提高數據讀入的效率,同時也可以通過“SET odps.mapper.merge.limit.size=64”來控制Map Instance讀取文件的個數。如果輸入數據的文件大小差異比較大,那么每個Map Instance讀取的數據量和讀取時間差異也會很大。
- 在寫入磁盤之前,線程首先根據Reduce Instance的個數劃分分區,數據會根據Key值Hash到不同的分區上,一個Reduce Instance對應一個分區的數據。Map端也會做部分聚合操作,以減少輸入Reduce端的數據量。由于數據是根據Hash分配的,因此會導致有些Reduce Instance會分配到大量數據。
在Map端讀數據時,由于讀入數據的文件大小分布不均勻,因此會導致有些Map Instance讀取并且處理的數據特別多,而有些Map Instance處理的數據特別少,造成Map端長尾。以下兩種情況會造成Map端長尾:
第一種情況導致的Map長尾,可以對上游數據合并小文件,同時調節本節點的小文件的參數來進行優化,即通過設置“SET odps.sql.mapper.merge.limit.size=64”和“SET odps.sql.mapper.split.size=256”兩個參數來調節,其中第一個參數用于調節Map任務的Map Instance的個數;
第二個參數用于調節單個Map Instance讀取的小文件個數,防止由于小文件過多導致Map Instance讀取的數據量很不均勻。
第二種情況導致的Map長尾,可以通過distribute by rand()會將Map端分發后的數據重新按照隨機值再進行一次分發,避免Map端長尾。
數據安全管理
數據安全管理是數據治理平臺的核心功能之一,分為平臺操作權限管理和接口調用權限管理。
四、建設目標
- 保障提供數據指標定義、計算口徑、數據來源一致性。
- 保障維度定義、維度值一致性。
- 保障維度和指標元數據信息的唯一出口。
- 提供維度和指標數據統一監控及預警能力。
歡迎關注我的公眾號“商業智能研究”,私信回復“資料包”,即可領取大數據、數據中臺、商業智能、數據倉庫等6G精華資料!
總結
以上是生活随笔為你收集整理的顶级公司在做数据挖掘,却忽略了数据管理平台,这个知识不得不看的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 采用这套全方位监控方案,立刻规避90%采
- 下一篇: 跟周报焦虑说拜拜!Excel打通Fine