元数据管理、治理、系统、建设方案、范例等
- 【數(shù)據(jù)治理工具】–元數(shù)據(jù)系統(tǒng)
1.元數(shù)據(jù)系統(tǒng)
1.1 概述
如果想建設(shè)好元數(shù)據(jù)系統(tǒng),需要理解元數(shù)據(jù)系統(tǒng)的相關(guān)概念,如數(shù)據(jù)、數(shù)據(jù)模型、元數(shù)據(jù)、元模型、ETL、數(shù)據(jù)血緣等等。
首先,要清楚數(shù)據(jù)的定義、數(shù)據(jù)模型的定義。數(shù)據(jù)一般是對客觀事物描述的抽象,在數(shù)據(jù)庫維度,數(shù)據(jù)是數(shù)據(jù)記錄的簡稱,例如,個(gè)人的基本信息、產(chǎn)品信息等。數(shù)據(jù)模型是數(shù)據(jù)特征的抽象,它從抽象層次上描述了系統(tǒng)的靜態(tài)特征、動態(tài)行為和約束條件,為數(shù)據(jù)庫系統(tǒng)的信息表示與操作提供一個(gè)抽象的框架。數(shù)據(jù)模型所描述的內(nèi)容有三部分,分別是數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作和數(shù)據(jù)約束。
數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)模型中的數(shù)據(jù)結(jié)構(gòu)主要描述數(shù)據(jù)的類型、內(nèi)容、性質(zhì)以及數(shù)據(jù)間的聯(lián)系等。數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)模型的基礎(chǔ),數(shù)據(jù)操作和約束都建立在數(shù)據(jù)結(jié)構(gòu)上。不同的數(shù)據(jù)結(jié)構(gòu)具有不同的操作和約束。
數(shù)據(jù)操作:數(shù)據(jù)模型中數(shù)據(jù)操作主要描述在相應(yīng)的數(shù)據(jù)結(jié)構(gòu)上的操作類型和操作方式 。
數(shù)據(jù)約束:數(shù)據(jù)模型中的數(shù)據(jù)約束主要描述數(shù)據(jù)結(jié)構(gòu)內(nèi)數(shù)據(jù)間的語法、詞義聯(lián)系、它們之間的制約和依存關(guān)系,以及數(shù)據(jù)動態(tài)變化的規(guī)則,以保證數(shù)據(jù)的正確、有效和相容。
其次,元數(shù)據(jù)和元模型。元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),這句話好抽象、好難理解。結(jié)合數(shù)據(jù)模型的定義,我們把這句話豐富下,換成“元數(shù)據(jù)是數(shù)據(jù)記錄的數(shù)據(jù)模型”。元模型是關(guān)于模型的模型,同理也是抽象、晦澀、難以理解,如果將這句話換成“元模型是元數(shù)據(jù)的數(shù)據(jù)模型”,是不是瞬間理解了。
需要注意的是,這兩句轉(zhuǎn)換內(nèi)容只是為了方便初學(xué)者去理解和閱讀接下來的大部分內(nèi)容,隨著時(shí)間的推移,個(gè)人對元數(shù)據(jù)認(rèn)知的加深,請拋棄這兩個(gè)轉(zhuǎn)換內(nèi)容,因?yàn)檫@兩句話的描述是以狹隘的定義去描述元數(shù)據(jù)和元模型,會禁錮你對元數(shù)據(jù)和元模型的理解。
圖 1 元數(shù)據(jù)、元模型與數(shù)據(jù)關(guān)系
然后, ETL、數(shù)據(jù)血緣。ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL是數(shù)據(jù)倉庫技術(shù),也經(jīng)常用于數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺等項(xiàng)目建設(shè)中,但其對象并不限于數(shù)據(jù)倉庫。
數(shù)據(jù)血緣是數(shù)據(jù)溯源的過程中找到相關(guān)數(shù)據(jù)之間的聯(lián)系,它是一個(gè)邏輯概念。基于數(shù)據(jù)血緣,還需要了解血緣分析、影響分析、數(shù)據(jù)全鏈路。
血統(tǒng)分析一般情況下采用圖形方式展示了以某個(gè)元數(shù)據(jù)為終止節(jié)點(diǎn),其前與其有關(guān)系的所有元數(shù)據(jù),反應(yīng)數(shù)據(jù)的來源與加工過程,使用血統(tǒng)分析可分析數(shù)據(jù)來源、標(biāo)準(zhǔn)貫標(biāo)關(guān)系、數(shù)據(jù)質(zhì)量問題追溯等。
影響分析一般情況下采用圖形方式展示了以某個(gè)元數(shù)據(jù)為起始節(jié)點(diǎn),其后與其有關(guān)系的所有元數(shù)據(jù),反應(yīng)數(shù)據(jù)的流向與加工過程,使用影響分析可分析元數(shù)據(jù)變更導(dǎo)致下游數(shù)據(jù)加工、數(shù)據(jù)關(guān)聯(lián)的定位。
數(shù)據(jù)全鏈路分析,又稱數(shù)據(jù)全鏈路地圖,簡稱數(shù)據(jù)全鏈路,是血緣分析和影響分析的總和,是以當(dāng)前元數(shù)據(jù)為節(jié)點(diǎn),向上了解數(shù)據(jù)流向和加工過程的為血緣分析,向下了解數(shù)據(jù)流向和加工鏈路的為影響分析,一般情況下采用圖形方式展示所有元數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)加工、關(guān)聯(lián)節(jié)點(diǎn)。
圖 2 ETL與數(shù)據(jù)全鏈路分析關(guān)系
圖 3 數(shù)據(jù)全鏈路分析與血緣分析和影響分析的關(guān)系
最后,再根據(jù)實(shí)際情況去了解其他相關(guān)概念來豐富對元數(shù)據(jù)的理解。沒有元數(shù)據(jù),無法了解數(shù)據(jù)的真實(shí)意義。元數(shù)據(jù)看起來是一堆晦澀、無意義的文字和數(shù)字,但它能為企業(yè)的各類數(shù)據(jù)提供上下文環(huán)境,使企業(yè)能更好地了解、使用和管理數(shù)據(jù),進(jìn)而體現(xiàn)數(shù)據(jù)的價(jià)值。
1.2 元數(shù)據(jù)
- 必須搞懂元數(shù)據(jù)相關(guān)的9個(gè)術(shù)語和名詞
元數(shù)據(jù)最簡單的定義是描述數(shù)據(jù)的數(shù)據(jù)。這里有兩個(gè)關(guān)鍵點(diǎn),一個(gè)是數(shù)據(jù),一個(gè)是描述數(shù)據(jù)。企業(yè)中一般的可進(jìn)行管理的數(shù)據(jù)如下表:
按照不同應(yīng)用領(lǐng)域或功能,元數(shù)據(jù)一般大致可分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)。
1.2.1 業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)描述數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)規(guī)則等。明確業(yè)務(wù)元數(shù)據(jù)可以讓人們更容易理解和使用業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)消除了數(shù)據(jù)二義性,讓人們對數(shù)據(jù)有一致的認(rèn)知,避免“自說自話”,進(jìn)而為數(shù)據(jù)分析和應(yīng)用提供支撐。
常見的業(yè)務(wù)元數(shù)據(jù)有:
- 業(yè)務(wù)定義、業(yè)務(wù)術(shù)語解釋等;
- 業(yè)務(wù)指標(biāo)名稱、計(jì)算口徑、衍生指標(biāo)等;
- 業(yè)務(wù)引擎的規(guī)則、數(shù)據(jù)質(zhì)量檢測規(guī)則、數(shù)據(jù)挖掘算法等;
- 數(shù)據(jù)的安全或敏感級別等。
1.2.2 技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)是結(jié)構(gòu)化處理后的數(shù)據(jù),方便計(jì)算機(jī)或數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行識別、存儲、傳輸和交換。技術(shù)元數(shù)據(jù)可以服務(wù)于開發(fā)人員,讓開發(fā)人員更加明確數(shù)據(jù)的存儲、結(jié)構(gòu),從而為應(yīng)用開發(fā)和系統(tǒng)集成奠定基礎(chǔ)。技術(shù)元數(shù)據(jù)也可服務(wù)于業(yè)務(wù)人員,通過元數(shù)據(jù)厘清數(shù)據(jù)關(guān)系,讓業(yè)務(wù)人員更快速地找到想要的數(shù)據(jù),進(jìn)而對數(shù)據(jù)的來源和去向進(jìn)行分析,支持?jǐn)?shù)據(jù)血緣追溯和影響分析。
常見的技術(shù)元數(shù)據(jù)有:
- 物理數(shù)據(jù)庫表名稱、列名稱、字段長度、字段類型、約束信息、數(shù)據(jù)依賴關(guān)系等;
- 數(shù)據(jù)存儲類型、位置、數(shù)據(jù)存儲文件格式或數(shù)據(jù)壓縮類型等;
- 字段級血緣關(guān)系、SQL腳本信息、ETL信息、接口程序等;
- 調(diào)度依賴關(guān)系、進(jìn)度和數(shù)據(jù)更新頻率等。
1.2.3 操作元數(shù)據(jù)
操作元數(shù)據(jù)描述數(shù)據(jù)的操作屬性,包括管理部門、管理責(zé)任人等。明確管理屬性有利于將數(shù)據(jù)管理責(zé)任落實(shí)到部門和個(gè)人,是數(shù)據(jù)安全管理的基礎(chǔ)。
常見的操作元數(shù)據(jù)有:
- 數(shù)據(jù)所有者、使用者等;
- 數(shù)據(jù)的訪問方式、訪問時(shí)間、訪問限制等;
- 數(shù)據(jù)訪問權(quán)限、組和角色等;
- 數(shù)據(jù)處理作業(yè)的結(jié)果、系統(tǒng)執(zhí)行日志等;
- 數(shù)據(jù)備份、歸檔人、歸檔時(shí)間等。
元數(shù)據(jù)的分類及實(shí)例見表2。
表2 元數(shù)據(jù)的分類(以“客戶”信息為例)
我們再來舉個(gè)通俗的例子,一本書的封面和目錄向我們展示了這樣的元數(shù)據(jù)信息:圖書名稱、作者姓名、出版商和版權(quán)細(xì)節(jié)、圖書的提綱、標(biāo)題、頁碼等。
元數(shù)據(jù)主要分3種類型,分別是(數(shù)據(jù)字典\數(shù)據(jù)血緣\數(shù)據(jù)特征)。
- 數(shù)據(jù)字典:描述的是數(shù)據(jù)的結(jié)構(gòu)信息。主要包括表名\注釋信息\表的產(chǎn)出任務(wù)\每個(gè)表都有哪些字段\這些字典分別代表什么含義\字段的類型。
- 數(shù)據(jù)血緣:一個(gè)表是直接通過哪些表加工而來。一般用于做影響分析和故障溯源。
- 數(shù)據(jù)特征:主要指數(shù)據(jù)的屬性信息,比如存儲空間大小\訪問熱度\主題域\分層\表關(guān)聯(lián)的指標(biāo)。
1.3 元模型
和元數(shù)據(jù)管理相關(guān)的另一個(gè)重要概念是元模型,定義元數(shù)據(jù)的屬性、關(guān)系的模型叫做元模型,每類元數(shù)據(jù)都屬于一個(gè)元模型。
比如,表模型里定義了表的屬性有“注釋”、“是否系統(tǒng)表”、“是否臨時(shí)表”、“所有者”等(圖1);定義了表由索引、外鍵、表分區(qū)、字段等組成(圖2);定義了表受表輸出組件、存儲過程、表等的影響(圖3)。
圖1
圖2
圖3
1.3.1 元模型作用
有了元模型,就能根據(jù)元模型來采集元數(shù)據(jù)信息。要實(shí)現(xiàn)企業(yè)元數(shù)據(jù)管理,需要定義一個(gè)符合存儲企業(yè)數(shù)據(jù)現(xiàn)狀的元數(shù)據(jù)模型,且這個(gè)模型有不同粒度和層次的元模型,有了層次和粒度的劃分,未來元數(shù)據(jù)進(jìn)行批量管理后就可以靈活的從不同維度進(jìn)行元數(shù)據(jù)分析,如企業(yè)的數(shù)據(jù)地圖、數(shù)據(jù)血統(tǒng)都是基于此實(shí)現(xiàn)的。
我們試著把企業(yè)中的技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、操作元數(shù)據(jù)、管理元數(shù)據(jù)進(jìn)行元模型的梳理,如下圖所示:
將以上梳理出的信息通過UML建模處理就得到了元模型,在元模型中有包、類、屬性、繼承、關(guān)系。創(chuàng)建元模型的時(shí)候也可以參考CWM(公共倉庫元模型),CWM定義了一套完整的元模型體系結(jié)構(gòu),用于數(shù)據(jù)倉庫構(gòu)建和應(yīng)用的元數(shù)據(jù)建模。
1.4 數(shù)據(jù)血緣
一般可以通過3種方式
-
通過靜態(tài)解析SQL,獲得輸入表和輸出表
-
通過實(shí)時(shí)抓取正在執(zhí)行的SQL,解析執(zhí)行計(jì)劃,獲取輸入表和輸出表
-
通過任務(wù)日志解析的方式,獲取執(zhí)行后的SQL輸入表和輸出表
-
第一種方式,面臨準(zhǔn)確性的問題,因?yàn)槿蝿?wù)沒有執(zhí)行,這個(gè) SQL 對不對都是一個(gè)問題。
-
第三種方式,血緣雖然是執(zhí)行后產(chǎn)生的,可以確保是準(zhǔn)確的,但是時(shí)效性比較差,通常要分析大量的任務(wù)日志數(shù)據(jù)。
-
所以第二種方式,我認(rèn)為是比較理想的實(shí)現(xiàn)方式,而 Atlas 就是這種實(shí)現(xiàn)。
2.建設(shè)意義與作用
2.1 建設(shè)意義
如果想梳理企業(yè)數(shù)據(jù)資產(chǎn),了解企業(yè)數(shù)據(jù)加工邏輯,發(fā)現(xiàn)企業(yè)數(shù)據(jù)質(zhì)量隱患,整理企業(yè)數(shù)據(jù)標(biāo)準(zhǔn),建設(shè)數(shù)據(jù)中臺,開展數(shù)據(jù)治理工作等,你會發(fā)現(xiàn),方方面面或多或少的都和元數(shù)據(jù)有千絲萬縷的聯(lián)系。因?yàn)樵獢?shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),它是一切工作開展的切入點(diǎn),如,想了解數(shù)據(jù)資產(chǎn),元數(shù)據(jù)就能給你提供描述數(shù)據(jù)資產(chǎn)的定義;想查看、申請數(shù)據(jù)資產(chǎn),可以基于元數(shù)據(jù)去控制查看范圍、申請流程。
簡單來說,元數(shù)據(jù)系統(tǒng)作為元數(shù)據(jù)管理態(tài)的系統(tǒng),可以把各種各樣復(fù)雜的信息統(tǒng)一管理起來,方便企業(yè)在數(shù)據(jù)層面,縱觀全局的了解數(shù)據(jù)定義進(jìn)而開展數(shù)據(jù)中臺建設(shè)、數(shù)據(jù)治理工作建設(shè)、數(shù)據(jù)質(zhì)量工作建設(shè)、數(shù)據(jù)資產(chǎn)相關(guān)工作建設(shè)。
2.2 主要作用
在數(shù)據(jù)治理中,元數(shù)據(jù)是對數(shù)據(jù)的描述,存儲著數(shù)據(jù)的描述信息。我們可以通過元數(shù)據(jù)管理和檢索我們想要的“書”。可見元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù),讓數(shù)據(jù)更容易理解、查找、管理和使用。
元數(shù)據(jù)是建設(shè)數(shù)據(jù)倉庫的基礎(chǔ),是構(gòu)建企業(yè)數(shù)據(jù)資源全景視圖的基礎(chǔ),清晰的血緣分析、影響分析、差異分析、關(guān)聯(lián)分析、指標(biāo)一致性分析等是數(shù)據(jù)資產(chǎn)管理的重要一環(huán)。
如果說數(shù)據(jù)是物料,那么元數(shù)據(jù)就是倉庫里的物料卡片;如果說數(shù)據(jù)是文件夾,那么元數(shù)據(jù)就是夾子的標(biāo)簽;如果說數(shù)據(jù)是書,那么元數(shù)據(jù)就是圖書館中的圖書卡。
元數(shù)據(jù)的主要作用是對數(shù)據(jù)對象進(jìn)行描述、定位、檢索、管理、評估和交互。
- **描述:**對數(shù)據(jù)對象的內(nèi)容、屬性的描述,這是元數(shù)據(jù)的基本功能,是各組織、各部門之間達(dá)成共識的基礎(chǔ)。
- **定位:**有關(guān)數(shù)據(jù)資源位置方面的信息描述,如數(shù)據(jù)存儲位置、URL等記錄,可以幫助用戶快速找到數(shù)據(jù)資源,有利于信息的發(fā)現(xiàn)和檢索。
- **檢索:**在描述數(shù)據(jù)的過程中,將信息對象中的重要信息抽出標(biāo)引并加以組織,建立它們之間的關(guān)系,為用戶提供多層次、多途徑的檢索體系,幫助用戶找到想要的信息。
- **管理:**對數(shù)據(jù)對象的版本、管理和使用權(quán)限的描述,方面信息對象管理和使用。
- **評估:**由于有元數(shù)據(jù)描述,用戶在不瀏覽具體數(shù)據(jù)對象的情況下也能對數(shù)據(jù)對象有個(gè)直觀的認(rèn)識,方便用戶的使用。
- **交互:**元數(shù)據(jù)對數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)系的描述方便了數(shù)據(jù)對象在不同部門、不同系統(tǒng)之間進(jìn)行流通和流轉(zhuǎn),并確保流轉(zhuǎn)過程中數(shù)據(jù)標(biāo)準(zhǔn)的一致性。
元數(shù)據(jù)以數(shù)字化方式描述企業(yè)的數(shù)據(jù)、流程和應(yīng)用程序,為企業(yè)數(shù)字資產(chǎn)的內(nèi)容提供了上下文,使得數(shù)據(jù)更容易理解、查找、管理和使用。準(zhǔn)確的元數(shù)據(jù)是必不可少的,也是迅速、有效地對數(shù)據(jù)去粗取精的關(guān)鍵。沒有元數(shù)據(jù),數(shù)據(jù)就毫無意義,只不過是一堆數(shù)字或文字而已。因此,對于元數(shù)據(jù)的有效管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ)。
2.3 應(yīng)用價(jià)值
良好的元數(shù)據(jù)架構(gòu),能夠給元數(shù)據(jù)帶來更多的應(yīng)用價(jià)值。我們再看看元數(shù)據(jù)的應(yīng)用價(jià)值。
- 圍繞核心業(yè)務(wù):通常在項(xiàng)目初期的時(shí)候,只圍繞一些核心業(yè)務(wù)主體,使其在使用的時(shí)候靈活高效,后續(xù)在持續(xù)擴(kuò)展其他能力。
- 數(shù)據(jù)成本分析:基于元數(shù)據(jù)中鏈路,分析各個(gè)節(jié)點(diǎn)數(shù)據(jù)的生產(chǎn)維護(hù)管理等成本,為數(shù)據(jù)服務(wù)中商業(yè)定價(jià)提供參考,可能直接影響服務(wù)是否可提供的決策。
- 配置可視化:在數(shù)據(jù)服務(wù)平臺中,最忌諱的一點(diǎn)就是靠手動去維護(hù)各種作業(yè),不管在什么場景下,都要考慮可配置化管理,保證動作可追溯。
- 流程自動化:不管是元數(shù)據(jù)結(jié)構(gòu)映射,還是配置后數(shù)據(jù)的抽取,要保證指令生成后可以自動完成該一系列動作,并完成流程監(jiān)控分析。
- 資產(chǎn)化分析:通常會把元數(shù)據(jù)視為數(shù)據(jù)資產(chǎn)體系,因此圍繞元數(shù)據(jù)去統(tǒng)計(jì)數(shù)據(jù)的使用情況,產(chǎn)生的價(jià)值,以及熱點(diǎn)數(shù)據(jù)識別和分布,業(yè)務(wù)主體關(guān)聯(lián)度等,并輸出相應(yīng)分析結(jié)果。
通過元數(shù)據(jù)管理我們能夠做到:
1、實(shí)現(xiàn)多樣、繁雜的元數(shù)據(jù)信息集中管理,為企業(yè)數(shù)據(jù)(服務(wù))管理提供統(tǒng)一的視圖,實(shí)現(xiàn)企業(yè)級數(shù)據(jù)(服務(wù))資產(chǎn)管理,方便數(shù)據(jù)(服務(wù))交互共享,同時(shí)為后 續(xù)規(guī)劃提供依據(jù);
2、通過管理維護(hù)數(shù)據(jù)(服務(wù))之間關(guān)系,實(shí)現(xiàn)數(shù)據(jù)(服務(wù))自動關(guān)聯(lián)分析,為問題定位、影響分析、上線加速等提供支撐。
3、建立數(shù)據(jù)(服務(wù))標(biāo)準(zhǔn),統(tǒng)一交換、存儲、應(yīng)用口徑,減少共享壁壘,降低應(yīng)用出錯(cuò)幾率,提升質(zhì)量。
通過這些基本能力,元數(shù)據(jù)在數(shù)據(jù)管理、微服務(wù)管理、業(yè)務(wù)管理等方面都能發(fā)揮很大的作用。
通過元數(shù)據(jù)管理,在數(shù)據(jù)方面能做到:
1、數(shù)據(jù)標(biāo)準(zhǔn)化
2、數(shù)據(jù)開放
3、數(shù)據(jù)質(zhì)量提升等
在微服務(wù)方面,能夠提供以下支撐:
1、服務(wù)開發(fā)、應(yīng)用等標(biāo)準(zhǔn)化;
2、服務(wù)應(yīng)用監(jiān)控,優(yōu)化服務(wù)應(yīng)用等
將來在業(yè)務(wù)方面也能通過元數(shù)據(jù)實(shí)現(xiàn)業(yè)務(wù)流程分析、業(yè)務(wù)流程優(yōu)化等能力。
大家常見的是元數(shù)據(jù)在數(shù)據(jù)倉庫中的應(yīng)用,數(shù)據(jù)倉庫是一個(gè)典型的分層設(shè)計(jì)的數(shù)據(jù)架構(gòu),其分層設(shè)計(jì)反映了數(shù)據(jù)在數(shù)據(jù)倉庫中的加工處理過程。
元數(shù)據(jù)作為數(shù)據(jù)倉庫的核心組成部分,主要用于記錄和管理數(shù)據(jù)在數(shù)據(jù)倉庫中的整個(gè)流轉(zhuǎn)過程,實(shí)現(xiàn)對數(shù)據(jù)倉庫各層級數(shù)據(jù)進(jìn)行統(tǒng)一管理。
(圖來源《一本書講透數(shù)據(jù)治理:戰(zhàn)略、方法、工具與實(shí)踐》)
元數(shù)據(jù)在數(shù)據(jù)倉庫中的應(yīng)用如下:
- 描述數(shù)據(jù)源的庫表結(jié)構(gòu)、數(shù)據(jù)關(guān)系以及每個(gè)數(shù)據(jù)項(xiàng)的定義;
- 描述數(shù)據(jù)源中每個(gè)數(shù)據(jù)項(xiàng)的值域范圍和更新頻率;
- 描述數(shù)據(jù)源與數(shù)據(jù)倉庫之間的數(shù)據(jù)映射關(guān)系;
- 描述數(shù)據(jù)倉庫中有哪些數(shù)據(jù)以及它們來自哪里;
- 描述數(shù)據(jù)在數(shù)據(jù)倉庫各層中的加工處理過程;
- 元數(shù)據(jù)管理工具為數(shù)據(jù)管理者和使用者提供了理解和查詢數(shù)據(jù)的一致語言;
- 利用元數(shù)據(jù)管理工具的元數(shù)據(jù)變更和版本管理功能,管理數(shù)據(jù)倉庫的數(shù)據(jù)模型,支持將元數(shù)據(jù)恢復(fù)到某一版本;
- 利用元數(shù)據(jù)管理工具的血緣分析、影響分析等功能,對數(shù)據(jù)倉庫中的數(shù)據(jù)問題快速定位、快速查找;
- 利用元數(shù)據(jù)管理工具的開放式元數(shù)據(jù)交換標(biāo)準(zhǔn),實(shí)現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的交換和共享。
下面我們用幾個(gè)例子,舉例說明元數(shù)據(jù)的作用。
數(shù)據(jù)治理之中,元數(shù)據(jù)是整個(gè)治理體系落地的技術(shù)核心。
比如:在數(shù)據(jù)標(biāo)準(zhǔn)中將數(shù)據(jù)標(biāo)準(zhǔn)作為一類業(yè)務(wù)元數(shù)據(jù)存儲,將其和技術(shù)元數(shù)據(jù)一定程度的關(guān)聯(lián),去看標(biāo)準(zhǔn)的落地效果。
在數(shù)據(jù)質(zhì)量中,通過元數(shù)據(jù)追溯質(zhì)量問題。在共享發(fā)布中,利用元數(shù)據(jù)自動形成數(shù)據(jù)服務(wù)等等。
元數(shù)據(jù)還能夠自動化的準(zhǔn)確的管理應(yīng)用的上線、變更, 通常企業(yè)系統(tǒng)建設(shè)會分為開發(fā)、測試與生產(chǎn)三個(gè)不同的環(huán)境,而在軟件開發(fā)過程中,無論是需求變更還是BUG修改都避免不了元數(shù)據(jù)的改動,這時(shí)候往往會出現(xiàn)開發(fā)庫、測試庫測試通過,而在上線過程中又出現(xiàn)問題的情況,這會讓運(yùn)維部門非常頭疼。
此時(shí)若通過元數(shù)據(jù)對系統(tǒng)的上線變更進(jìn)行管理,自動采集三個(gè)環(huán)境的庫表結(jié)構(gòu)與存儲過程等信息,保證各個(gè)環(huán)境中的元數(shù)據(jù)都是最新的、最準(zhǔn)確的,再將上線環(huán)境與測試環(huán)境的元數(shù)據(jù)進(jìn)行對比,不一致的地方一目了然。如果把系統(tǒng)的開發(fā)庫、測試庫、生產(chǎn)庫的元數(shù)據(jù)都管理起來,上線時(shí)突然出現(xiàn)問題的概率就會大大降低。
通過擴(kuò)展模型,元數(shù)據(jù)也能夠管理微服務(wù),微服務(wù)的生命周期有多個(gè)階段,在前期需要與多個(gè)微服務(wù)協(xié)同考慮,上架后也會有多個(gè)使用者,在這種復(fù)雜的狀況下需要管理微服務(wù)的全生命周期。
在規(guī)劃階段提供標(biāo)準(zhǔn)元數(shù)據(jù)規(guī)范微服務(wù),在設(shè)計(jì)階段提供連接其他微服務(wù)的元數(shù)據(jù)信息,在開發(fā)階段使用元數(shù)據(jù)協(xié)助開發(fā)測試。
上線后分析微服務(wù)的使用情況,并協(xié)助維護(hù)微服務(wù)的變更。最后微服務(wù)下架時(shí)將微服務(wù)的元數(shù)據(jù)存檔,并確保對目前體系不產(chǎn)生影響。
同時(shí)微服務(wù)的不同版本間的元數(shù)據(jù)的變化也可以做追溯和分析。
2.4 視角分析
元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),是數(shù)據(jù)的業(yè)務(wù)涵義、技術(shù)涵義和加工處理過程的定義,是數(shù)據(jù)管控的基本對象。企業(yè)要想知道擁有什么數(shù)據(jù),數(shù)據(jù)在哪里,數(shù)據(jù)當(dāng)前歸屬情況,數(shù)據(jù)的生命周期是什么,那些數(shù)據(jù)是需要做數(shù)據(jù)安全保護(hù),數(shù)據(jù)質(zhì)量如何開展,都離不開元數(shù)據(jù)的管理。因此,可以說,元數(shù)據(jù)系統(tǒng)為用戶更好的認(rèn)識數(shù)據(jù)、分析數(shù)據(jù)、挖掘數(shù)據(jù)提供了強(qiáng)有力的工具,是用戶的數(shù)據(jù)由沉默到可用,由資源到資產(chǎn)的基石。
2.5 元數(shù)據(jù)平臺解決什么問題?
通過元數(shù)據(jù)建設(shè),為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。
- 數(shù)據(jù)問題:多種存儲形式的數(shù)據(jù)來源(mysql、hive、hbase、es)、數(shù)據(jù)變化評率高;
- 數(shù)據(jù)使用問題:查看表信息(結(jié)構(gòu)、量級、所屬、是否可用)、表依賴(血緣統(tǒng)計(jì));
- 數(shù)據(jù)管理問題:表權(quán)限管理、數(shù)據(jù)質(zhì)量管控、數(shù)據(jù)接入管理;
2.6 元數(shù)據(jù)應(yīng)用
元數(shù)據(jù)的比較全的應(yīng)用場景
可以看到,建立好企業(yè)的元數(shù)據(jù),便可以為數(shù)據(jù)治理打下堅(jiān)實(shí)的基礎(chǔ),也可衍生出豐富的應(yīng)用,如數(shù)據(jù)地圖,血緣分析,數(shù)據(jù)冷熱分析,數(shù)據(jù)資產(chǎn)管理等。
3. 建設(shè)內(nèi)容
元數(shù)據(jù)系統(tǒng)建設(shè)范圍非常寬泛,當(dāng)前市面上每個(gè)廠商的元數(shù)據(jù)系統(tǒng)都不盡相同,各有各的特點(diǎn)。最早的元數(shù)據(jù)系統(tǒng)建設(shè)能追溯到十余年前,那時(shí)候的元數(shù)據(jù)理念跟現(xiàn)在也有些不同,如采集元數(shù)據(jù)的方式、范圍等。
下圖元數(shù)據(jù)系統(tǒng)建設(shè)的內(nèi)容是參考市面主流元數(shù)據(jù)系統(tǒng)、《信通院元數(shù)據(jù)測評要求》以及本人對元數(shù)據(jù)的理解,結(jié)合自己的產(chǎn)品經(jīng)驗(yàn)、實(shí)施經(jīng)驗(yàn)、咨詢經(jīng)驗(yàn)將常見的功能整理如下。
系統(tǒng)建設(shè)的內(nèi)容其實(shí)不重要,重要的是解決咨詢過程中、實(shí)施過程中客戶問題,這部分內(nèi)容不在這里贅述,后續(xù)會在數(shù)據(jù)治理咨詢、數(shù)據(jù)治理實(shí)施章節(jié)中陳述。
圖 2 元數(shù)據(jù)系統(tǒng)建設(shè)范圍圖
下面介紹重點(diǎn)幾個(gè)系統(tǒng)功能邏輯。
3.1 元模型管理
元模型定義了各種元數(shù)據(jù)的結(jié)構(gòu)以及元數(shù)據(jù)之間的關(guān)系,是元數(shù)據(jù)管理的基礎(chǔ)。因此建設(shè)元模型需要考慮元模型需要遵守的規(guī)范,元模型建設(shè)的范圍,元模型對元數(shù)據(jù)的影響,元模型是否能讓用戶自定義建設(shè)。
建設(shè)元模型難點(diǎn)是需要梳理元模型的屬性信息以及屬性信息在哪里存放,技術(shù)元模型需要對相關(guān)的數(shù)據(jù)庫、接口等作深入了解,通過深入了解之后,梳理元模型的屬性信息及如何查詢到這些元模型屬性;是業(yè)務(wù)元模型跟技術(shù)元模型調(diào)研對象是不一樣的,需要跟業(yè)務(wù)人員溝通屬性口徑、屬性關(guān)系,基于溝通內(nèi)容整理元模型的屬性,如果涉及業(yè)務(wù)元模型出處的業(yè)務(wù)系統(tǒng),還需要跟對方業(yè)務(wù)系統(tǒng)調(diào)研,確定采集方式。
由此可見,元模型的范圍是非常重要的,如果是剛剛建設(shè)元數(shù)據(jù)系統(tǒng),推薦先從關(guān)系數(shù)據(jù)庫著手,后續(xù)隨著產(chǎn)品交付、項(xiàng)目的實(shí)施在逐步完善其他技術(shù)元模型、業(yè)務(wù)元模型的建設(shè)。
一般情況下,建設(shè)元模型都會參考CWM(公共倉庫元模型)規(guī)范,按照CWM規(guī)范開展元模型的設(shè)計(jì)工作。不建議讓客戶去對元模型進(jìn)行增刪改。因?yàn)?#xff0c;技術(shù)元模型一般對應(yīng)的數(shù)據(jù)庫層面,相關(guān)數(shù)據(jù)庫底層的元數(shù)據(jù)是固定的,不會因?yàn)檎{(diào)整元數(shù)據(jù)的元模型而改變數(shù)據(jù)庫的元數(shù)據(jù)信息,通常需要根據(jù)具體的數(shù)據(jù)庫去設(shè)計(jì)不同的元模型;業(yè)務(wù)元模型是根據(jù)具體業(yè)務(wù)場景去分析整理相關(guān)元模型;管理元模型是根據(jù)業(yè)務(wù)要求抽象的管理屬性,需要依托于技術(shù)元模型和業(yè)務(wù)元模型,不能孤立使用。
元模型主要分技術(shù)元模型、業(yè)務(wù)元模型、管理元模型,后續(xù)的采集管理、元數(shù)據(jù)管理、統(tǒng)計(jì)與分析等都是基于這個(gè)分類開展相關(guān)工作。這三大類元模型的技術(shù)元模型在數(shù)據(jù)源系統(tǒng)章節(jié)已經(jīng)講述,這里不再贅述。業(yè)務(wù)元數(shù)據(jù)很多,后續(xù)數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng)的基礎(chǔ)類標(biāo)準(zhǔn)、指標(biāo)類標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量系統(tǒng)的檢核規(guī)則都屬于業(yè)務(wù)元數(shù)據(jù),可以參考數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量系統(tǒng)相關(guān)章節(jié)。
管理元模型核心是管理元模型的屬性,屬性包括管理部門、分類、分級等,這些屬性信息用來擴(kuò)展技術(shù)元模型和業(yè)務(wù)元模型的屬性,為了后續(xù)對元模型管理做到從字段屬性層面的支撐工作。從數(shù)據(jù)治理源頭來說,一般管理部門也會在源頭系統(tǒng)進(jìn)行統(tǒng)一要求,這樣當(dāng)元數(shù)據(jù)采集后,相關(guān)管理屬性就存在了,不需要再次歸類梳理。
3.2 采集管理
元數(shù)據(jù)采集管理,簡稱采集管理,是將目標(biāo)庫、文件、接口中的元數(shù)據(jù)通過技術(shù)的方式自動化或者半自動化獲取具體內(nèi)容。采集管理核心內(nèi)容是采集引擎、任務(wù)調(diào)度、采集日志、消息通知。
采集引擎,是元數(shù)據(jù)采集引擎的簡稱,作用是對數(shù)據(jù)源進(jìn)行元數(shù)據(jù)采集。由于元模型的多樣性和元模型是對采集范圍的定義,且元模型需要與采集引擎一一對應(yīng),因此采集引擎是包含多種元數(shù)據(jù)采集引擎的集合。采集引擎是解決自動化或者半自動化獲取元數(shù)據(jù)的訴求。自動化一般是基于分析好的元模型,結(jié)合數(shù)據(jù)源系統(tǒng)提供的目標(biāo)地址,獲取元數(shù)據(jù)信息;半自動化儀表是基于分析好的元模型,導(dǎo)出需要采集的元模型表頭樣式,用戶通過線下收集的方式整理元數(shù)據(jù),最后,將整理好的元數(shù)據(jù)文件導(dǎo)入到系統(tǒng)中。
任務(wù)調(diào)度,簡單來說就是定時(shí)任務(wù),是指基于給定時(shí)間點(diǎn),給定時(shí)間間隔或者給定執(zhí)行次數(shù)自動執(zhí)行任務(wù)。通過任務(wù)調(diào)度可以按照調(diào)度排期順序啟動元數(shù)據(jù)采集工作,解決自動化采集元數(shù)據(jù)問題。也需要考慮與第三方調(diào)度平臺對接,將任務(wù)調(diào)度納管到客戶整體的任務(wù)調(diào)度系統(tǒng)中。
采集日志是在采集引擎工作的時(shí)候,將采集信息收集起來,例如開始結(jié)束時(shí)間、相關(guān)元數(shù)據(jù)數(shù)量等。用戶通過采集日志能看到本次任務(wù)調(diào)度的成功與失敗,通過分析采集日志了解到當(dāng)前采集引擎的性能等。
消息通知是對采集任務(wù)結(jié)束之后,對采集任務(wù)的整理匯總后,通過系統(tǒng)消息通知渠道、短信、郵箱、釘釘、微信等將采集任務(wù)結(jié)果推送給用戶,達(dá)到用戶實(shí)時(shí)了解采集任務(wù)情況。
消息通知主要有如下幾種形式:任務(wù)失敗成功信息、采集元數(shù)據(jù)變化情況匯總消息、元數(shù)據(jù)異動情況分析消息等。
采集管理是元數(shù)據(jù)管理的入口,元數(shù)據(jù)采集引擎是采集管理的核心,只有把元數(shù)據(jù)采集管理梳理清楚,才能更好的為后續(xù)的元數(shù)據(jù)版本、數(shù)據(jù)地圖等提供基礎(chǔ)數(shù)據(jù)。
3.3 元數(shù)據(jù)管理
元數(shù)據(jù)管理是對采集到的元數(shù)據(jù)統(tǒng)一的后臺管理端,主要包括三個(gè)子功能,分別是完善元數(shù)據(jù)、元數(shù)據(jù)版本、環(huán)境巡檢。
元數(shù)據(jù)管理是指與確保正確創(chuàng)建、存儲和控制元數(shù)據(jù),以便在整個(gè)企業(yè)中一致地定義數(shù)據(jù)有關(guān)的活動。
元數(shù)據(jù)管理是對涉及的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)進(jìn)行盤點(diǎn)、集成和管理。采用科學(xué)有效的機(jī)制對元數(shù)據(jù)進(jìn)行管理,并面向開發(fā)人員、業(yè)務(wù)用戶提供元數(shù)據(jù)服務(wù),可以滿足用戶的業(yè)務(wù)需求,為企業(yè)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)分析的開發(fā)、維護(hù)等過程提供支持。
可以從技術(shù)、業(yè)務(wù)和應(yīng)用三個(gè)角度理解元數(shù)據(jù)管理。
**技術(shù)角度:**元數(shù)據(jù)管理著企業(yè)的數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)模型、數(shù)據(jù)庫、表、字段以及字段間的數(shù)據(jù)關(guān)系等技術(shù)元數(shù)據(jù)。
**業(yè)務(wù)角度:**元數(shù)據(jù)管理著企業(yè)的業(yè)務(wù)術(shù)語表、業(yè)務(wù)規(guī)則、質(zhì)量規(guī)則、安全策略以及表的加工策略、表的生命周期信息等業(yè)務(wù)元數(shù)據(jù)。
**應(yīng)用角度:**元數(shù)據(jù)管理為數(shù)據(jù)提供了完整的加工處理全鏈路跟蹤,方便數(shù)據(jù)的溯源和審計(jì),這對于數(shù)據(jù)的合規(guī)使用越來越重要。通過數(shù)據(jù)血緣分析,追溯發(fā)生數(shù)據(jù)質(zhì)量問題和其他錯(cuò)誤的根本原因,并對更改后的元數(shù)據(jù)進(jìn)行影響分析。
企業(yè)元數(shù)據(jù)管理的主要活動包括:
- 創(chuàng)建并記錄主題領(lǐng)域的實(shí)體和屬性的數(shù)據(jù)定義;
- 識別數(shù)據(jù)對象之間的業(yè)務(wù)規(guī)則和關(guān)系;
- 證明數(shù)據(jù)內(nèi)容的準(zhǔn)確性、完整性和及時(shí)性;
- 建立和記錄內(nèi)容的上下文(數(shù)據(jù)血緣、數(shù)據(jù)影響的全鏈路跟蹤分析);
- 為多樣化的數(shù)據(jù)用戶提供一系列上下文理解,包括用于合規(guī)性、內(nèi)部控制和更好決策的可信數(shù)據(jù);
- 為技術(shù)人員提供元數(shù)據(jù)信息,支持?jǐn)?shù)據(jù)庫或應(yīng)用的開發(fā)。
3.3.1 元數(shù)據(jù)完善
如果只是對元數(shù)據(jù)簡單管理,不涉及數(shù)據(jù)資產(chǎn)相關(guān)管理內(nèi)容,或者說不對原始元數(shù)據(jù)添加任何管理元數(shù)據(jù),也沒有相關(guān)元數(shù)據(jù)發(fā)布流程,那么,元數(shù)據(jù)完善功能可以不做建設(shè)。元數(shù)據(jù)完善主要是對采集過來的元數(shù)據(jù)進(jìn)一步的加工,通過元數(shù)據(jù)完善的操作豐富元數(shù)據(jù)管理屬性和添加相關(guān)流程以滿足咨詢團(tuán)隊(duì)編制的《元數(shù)據(jù)管理辦法》中提到的元數(shù)據(jù)管理流程。
一般情況下,元數(shù)據(jù)通過采集任務(wù)根據(jù)調(diào)度任務(wù)通過增量的方式自動采集,為了確保數(shù)據(jù)源頭與采集內(nèi)容的一致性,不會對采集的元數(shù)據(jù)做任何內(nèi)容的修改,根據(jù)客戶需求添加相關(guān)管理屬性,如管理部門、元數(shù)據(jù)目錄、安全等級等。通過元數(shù)據(jù)發(fā)布流程完成元數(shù)據(jù)從管理態(tài)到發(fā)布態(tài),讓元數(shù)據(jù)進(jìn)入下一個(gè)展示環(huán)節(jié)元數(shù)據(jù)展示中。如果元數(shù)據(jù)是通過線下Excel梳理,通過文件導(dǎo)入的方式獲取元數(shù)據(jù),那么除了自動采集的操作之外,還可以根據(jù)具體情況對導(dǎo)入的元數(shù)據(jù)進(jìn)行優(yōu)化調(diào)整。
在元數(shù)據(jù)完善過程中,完善的重點(diǎn)是元數(shù)據(jù)目錄、管理部門、安全等級、甚至訪問元數(shù)據(jù)的申請流程,換一個(gè)維度思考,這些完善信息就是確定數(shù)據(jù)所有者、數(shù)據(jù)管理者、數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)使用者、數(shù)據(jù)使用流程、數(shù)據(jù)使用是脫敏要求,簡單歸納四個(gè)字,數(shù)據(jù)確權(quán),就是確定數(shù)據(jù)的權(quán)利屬性,包括確定數(shù)據(jù)權(quán)利主體、確定權(quán)利的內(nèi)容。這些其實(shí)就是在確定數(shù)據(jù)資產(chǎn)的權(quán)屬問題。數(shù)據(jù)確權(quán)是數(shù)據(jù)資產(chǎn)化的基礎(chǔ),是數(shù)據(jù)交易和數(shù)據(jù)流通的前提,是保護(hù)數(shù)據(jù)安全的重要手段。
數(shù)據(jù)資產(chǎn)一般是對用數(shù)層面,體現(xiàn)數(shù)據(jù)價(jià)值的角度,為什么在完善元數(shù)據(jù)時(shí),說是在確定數(shù)據(jù)資產(chǎn)的權(quán)屬呢?因?yàn)?#xff0c;元數(shù)據(jù)是展示數(shù)據(jù)資產(chǎn),或者管理數(shù)據(jù)資產(chǎn)的承接者。舉個(gè)例子,假設(shè)把數(shù)據(jù)比喻為液體,元數(shù)據(jù)比喻為容器,偏離片、蒸餾器、分離器等工具和糖、鹽等各種試劑比喻為展示液體的工具,如數(shù)據(jù)查詢、商業(yè)智能等。那么,液體需要用各式各樣的容器存放,當(dāng)用戶用使用液體時(shí),根據(jù)不同需求,對液體進(jìn)行處理,如蒸餾獲取純潔的液體、添加試劑掩蓋液體真實(shí)顏色或者味道等。
元數(shù)據(jù)目錄還可以理解為資產(chǎn)目錄,資產(chǎn)目錄是什么,相關(guān)定義請查閱理論知識章節(jié),如果建設(shè),等后續(xù)實(shí)施章節(jié)在詳細(xì)陳述。這里簡單概述數(shù)據(jù)資產(chǎn)目錄到底是什么,解開他神秘的面紗。
先說數(shù)據(jù)資產(chǎn)一般都包含什么,如果從元數(shù)據(jù)是數(shù)據(jù)資產(chǎn)管理的抓手,那么,數(shù)據(jù)資產(chǎn)包括存儲元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)。而這些元數(shù)據(jù)其實(shí)在采集的時(shí)候就有相關(guān)目錄,這些目錄組裝起來就是資產(chǎn)目錄。存儲元數(shù)據(jù)采集后,一般都會以技術(shù)口徑、管理口徑、業(yè)務(wù)口徑掛載到相關(guān)目錄上,例如,科技部、計(jì)劃財(cái)務(wù)部、網(wǎng)絡(luò)金融部等。業(yè)務(wù)元數(shù)據(jù)中的基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)的主題、層級,質(zhì)量檢核規(guī)則中的規(guī)則目錄,例如唯一性、完整性、一致性等這些都是目錄,把他們整理匯總起來,就是數(shù)據(jù)資產(chǎn)目錄。
圖 3 依托于存量目錄建設(shè)數(shù)據(jù)資產(chǎn)目錄(僅供參考)
當(dāng)然,如果您經(jīng)濟(jì)實(shí)力夯實(shí),相關(guān)業(yè)務(wù)人員充足,也可以重新基于采集來的各類元數(shù)據(jù),按需要重新劃分資產(chǎn)目錄,如按客戶、業(yè)務(wù)、經(jīng)營管理等。需要說明的是,數(shù)據(jù)作為可以快速復(fù)制的特性,同一個(gè)數(shù)據(jù)資產(chǎn)最少會在一個(gè)資產(chǎn)目錄下,也就是說,同一個(gè)數(shù)據(jù)資產(chǎn)可以出現(xiàn)在多個(gè)資產(chǎn)目錄下。
圖 4 重新梳理數(shù)據(jù)資產(chǎn)目錄(僅供參考)
如果僅從管理元數(shù)據(jù)就是管理數(shù)據(jù)資產(chǎn),那么元數(shù)據(jù)完善功能還可以使用資產(chǎn)盤點(diǎn)、資產(chǎn)確權(quán)、資產(chǎn)認(rèn)責(zé)等名稱。
3.3.2 元數(shù)據(jù)版本
元數(shù)據(jù)版本管理解決相同數(shù)據(jù)源、相同環(huán)境(開發(fā)、測試、生產(chǎn))下,不同時(shí)期采集的元數(shù)據(jù)支持任意對比,并基于版本對比功能,展示元數(shù)據(jù)各個(gè)維度之間的變化情況,如新增、修改、刪除。
一般情況下,元數(shù)據(jù)采集使用增量的方式獲取元數(shù)據(jù),元數(shù)據(jù)版本中會包含所有采集的增量內(nèi)容。只有這樣,才能完成元數(shù)據(jù)版本工作,也就是說,元數(shù)據(jù)完善功能是最新的元數(shù)據(jù),元數(shù)據(jù)展示中是添加過管理屬性或者允許發(fā)布的元數(shù)據(jù)。
3.3.3 環(huán)境巡查
環(huán)境巡查解決不同環(huán)境下元數(shù)據(jù)是否一致的問題,一般環(huán)境巡查主要針對數(shù)據(jù)庫相關(guān)的技術(shù)元數(shù)據(jù),是元數(shù)據(jù)版本管理的特殊場景下的功能延伸,因?yàn)槠渌愋驮獢?shù)據(jù)可以通過元數(shù)據(jù)版本解決。
做過開發(fā)的小伙伴都知道,理論上系統(tǒng)部署在開發(fā)環(huán)境、測試環(huán)境、生產(chǎn)環(huán)境都是物理隔絕的。開發(fā)小伙伴在開發(fā)環(huán)境基于產(chǎn)品經(jīng)理整理的需求開發(fā)相關(guān)功能,開發(fā)完畢后將代碼、數(shù)據(jù)庫腳本提供給測試小伙伴,由測試小伙伴基于發(fā)布的文件部署到測試環(huán)境,測試小伙伴在測試環(huán)境測試通過,相關(guān)人員準(zhǔn)備上線文檔(軟件程序、配置文件、數(shù)據(jù)庫腳本等)由配置管理員基于文檔發(fā)布到生產(chǎn)環(huán)境中。
在實(shí)際過程中,需求的變動、人員的變動、配置管理不標(biāo)準(zhǔn)化,會出現(xiàn)測試環(huán)境的庫表字段和生產(chǎn)環(huán)境的庫表字段差異特別大,如何知道兩個(gè)環(huán)境之間庫表字段的差異,是非常費(fèi)力的一件事情。環(huán)境巡查就是解決不同環(huán)境下元數(shù)據(jù)不一致的問題。
首先,從某個(gè)元數(shù)據(jù)環(huán)境上的采集最新的元數(shù)據(jù)信息,通過導(dǎo)出的方式獲取全量元數(shù)據(jù)信息(建議導(dǎo)出的元數(shù)據(jù)信息是加密,只有元數(shù)據(jù)系統(tǒng)才能解析)。將導(dǎo)出元數(shù)據(jù)信息在另一個(gè)元數(shù)據(jù)系統(tǒng)環(huán)境上的環(huán)境巡查中導(dǎo)入,通過與最新采集的元數(shù)據(jù)進(jìn)行比對,發(fā)現(xiàn)兩個(gè)環(huán)境上元數(shù)據(jù)的不同,并形成差異分析報(bào)告,提供給原業(yè)務(wù)系統(tǒng),便于原業(yè)務(wù)系統(tǒng)整改。
3.3.4 元數(shù)據(jù)管理的目標(biāo)
企業(yè)元數(shù)據(jù)管理的本質(zhì)是有效利用企業(yè)數(shù)據(jù)資產(chǎn),讓數(shù)據(jù)發(fā)揮出盡可能大的價(jià)值。元數(shù)據(jù)管理可以幫助業(yè)務(wù)分析師、系統(tǒng)架構(gòu)師、數(shù)據(jù)倉庫工程師和軟件開發(fā)工程師等相關(guān)干系人清楚地知道企業(yè)擁有什么數(shù)據(jù),它們存儲在哪里,如何抽取、清理、維護(hù)這些數(shù)據(jù)并指導(dǎo)用戶使用。
以下元數(shù)據(jù)管理目標(biāo)是企業(yè)的普遍訴求。
3.3.4.1 建立指標(biāo)解釋體系
滿足用戶對業(yè)務(wù)和數(shù)據(jù)理解的需求,建立標(biāo)準(zhǔn)的企業(yè)內(nèi)部知識傳承的信息承載平臺,建立業(yè)務(wù)分析知識庫,實(shí)現(xiàn)知識共享。能夠回答以下問題:
- 企業(yè)有哪些數(shù)據(jù)?
- 什么是企業(yè)有效客戶?有效客戶和客戶有何區(qū)別?
- 什么是產(chǎn)品的生命周期?
- 這個(gè)數(shù)據(jù)還叫什么名字?
- 數(shù)據(jù)倉庫中的存儲過程是誰寫的?它用來干什么?現(xiàn)在還在用嗎?
典型應(yīng)用有數(shù)據(jù)資源目錄和業(yè)務(wù)術(shù)語表。
3.3.4.2 提高數(shù)據(jù)溯源能力
讓用戶能夠清晰地了解數(shù)據(jù)倉庫中數(shù)據(jù)流的來龍去脈、業(yè)務(wù)處理規(guī)則、轉(zhuǎn)換情況等,提高數(shù)據(jù)的溯源能力,支持?jǐn)?shù)據(jù)倉庫的成長需求,降低因員工換崗造成的影響。元數(shù)據(jù)有助于回答以下問題:
- 這張表是從哪個(gè)業(yè)務(wù)系統(tǒng)中抽取過來的?
- ETL過程是否對數(shù)據(jù)進(jìn)行過加工處理?進(jìn)行了哪些處理?
- 指標(biāo)數(shù)據(jù)是從哪些表匯總計(jì)算出來的?
典型應(yīng)用有血緣分析、影響分析、全鏈路分析。
3.3.4.3 數(shù)據(jù)質(zhì)量稽核體系
通過非冗余、非重復(fù)的元數(shù)據(jù)信息提高數(shù)據(jù)完整性、準(zhǔn)確性。元數(shù)據(jù)管理解決的問題是如何將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)分門別類地進(jìn)行管理,建立報(bào)警、監(jiān)控機(jī)制,出現(xiàn)故障時(shí)能及時(shí)發(fā)現(xiàn)問題,為數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量監(jiān)控提供基礎(chǔ)素材。能夠回答以下問題:
- 今天的在線用戶數(shù)為什么是0?
- 為什么A報(bào)表中的本月收入值與B報(bào)表中的不同?
典型應(yīng)用有指標(biāo)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量規(guī)則。
3.4 元數(shù)據(jù)展示
通過元數(shù)據(jù)采集任務(wù)和元數(shù)據(jù)完善,元數(shù)據(jù)的相關(guān)屬性信息已經(jīng)相當(dāng)豐滿,這時(shí)候的元數(shù)據(jù)展示主要包括三個(gè)方面,按元數(shù)據(jù)分類的數(shù)據(jù)方式層級展示元數(shù)據(jù)(或者叫數(shù)據(jù)資產(chǎn)展示),基于采集的ETL相關(guān)腳本解析后的元數(shù)據(jù)地圖(或者叫數(shù)據(jù)地圖、資產(chǎn)地圖等),基于搜索引擎的元數(shù)據(jù)搜索(或者叫數(shù)據(jù)資產(chǎn)搜索)。
3.4.1 元數(shù)據(jù)展示
元數(shù)據(jù)展示主要基于元數(shù)據(jù)完善添加數(shù)據(jù)分類、安全分級、管理屬性等信息之后,用戶通過數(shù)據(jù)分類可以層級點(diǎn)開展示元數(shù)據(jù),查看元數(shù)據(jù)詳情。
3.4.2 元數(shù)據(jù)地圖
有一種特殊的元數(shù)據(jù),從廣義上講屬于技術(shù)元數(shù)據(jù),從在細(xì)粒度劃分上,歸屬為計(jì)算元數(shù)據(jù),基于計(jì)算解析引擎處理后,展示數(shù)據(jù)加工邏輯、數(shù)據(jù)引用關(guān)系,這就是元數(shù)據(jù)地圖。
元數(shù)據(jù)地圖或者叫血緣地圖,通常展示庫表字段的數(shù)據(jù)加工鏈路。讓用戶知道基于某個(gè)字段或者某個(gè)表,數(shù)據(jù)加工的上游是哪個(gè)表、哪個(gè)字段,數(shù)據(jù)下游是哪個(gè)表、哪個(gè)字段。在廣義些,指標(biāo)標(biāo)準(zhǔn)依賴的模型是那些,數(shù)據(jù)標(biāo)準(zhǔn)貫標(biāo)的表和字段有哪些,質(zhì)量規(guī)則是對那些表和字段進(jìn)行檢核的,調(diào)度任務(wù)的先后依賴等等。也就是說,除了常見的庫表字段的數(shù)據(jù)加工血緣鏈路圖,也有業(yè)務(wù)元數(shù)據(jù)依賴的庫表字段關(guān)系,把他們這些關(guān)系融為一體,就能形成三維立體的元數(shù)據(jù)關(guān)系地圖。
按數(shù)據(jù)域?qū)ζ髽I(yè)數(shù)據(jù)資源進(jìn)行全面盤點(diǎn)和分類,并根據(jù)元數(shù)據(jù)字典自動生成企業(yè)數(shù)據(jù)資產(chǎn)的全景地圖。該地圖可以告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么。
數(shù)據(jù)資產(chǎn)地圖支持以拓?fù)鋱D的形式可視化展示各類元數(shù)據(jù)和數(shù)據(jù)處理過程,通過不同層次的圖形展現(xiàn)粒度控制,滿足業(yè)務(wù)上不同應(yīng)用場景的圖形查詢和輔助分析需要:
3.4.3 元數(shù)據(jù)搜索
元數(shù)據(jù)搜索又稱數(shù)據(jù)地圖,是通過全文搜索的方式,讓用戶找到目標(biāo)元數(shù)據(jù),但用戶點(diǎn)擊元數(shù)據(jù)時(shí),除了展示當(dāng)前元數(shù)據(jù)的基本信息,還需要展示元數(shù)據(jù)的關(guān)聯(lián)信息、血緣信息等。假設(shè)搜到的是某個(gè)數(shù)據(jù)標(biāo)準(zhǔn),展示數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)屬性、業(yè)務(wù)屬性、技術(shù)屬性、管理屬性等通用信息,還展示當(dāng)前數(shù)據(jù)標(biāo)準(zhǔn)貫標(biāo)的庫表字段,及關(guān)聯(lián)的庫表字段數(shù)據(jù)血緣加工鏈路,展示這些庫表字段引用的數(shù)據(jù)檢核規(guī)則、指標(biāo)標(biāo)準(zhǔn)、標(biāo)簽規(guī)則、報(bào)表等信息。
如果元數(shù)據(jù)搜索的結(jié)果,能讓用戶申請資產(chǎn)訪問,通過資產(chǎn)訪問申請通過之后,可以看到具體當(dāng)前元數(shù)據(jù)關(guān)聯(lián)的部分或者全部,脫敏或者未脫敏的數(shù)據(jù)記錄信息,或者說業(yè)務(wù)數(shù)據(jù)信息,那么,這時(shí)候的元數(shù)據(jù)搜索或者數(shù)據(jù)地圖,應(yīng)該成為資產(chǎn)地圖,且當(dāng)前功能不能放到元數(shù)據(jù)系統(tǒng)中,應(yīng)該放到數(shù)據(jù)門戶或者數(shù)據(jù)資產(chǎn)系統(tǒng)中。
3.4.4 血緣關(guān)系
從上層業(yè)務(wù)側(cè)追溯到底層結(jié)構(gòu),形成血緣關(guān)系的概念,概念本身并不重要的,背后的核心是鏈路的管理,鏈路上的節(jié)點(diǎn)(中間實(shí)體)是通過多種計(jì)算手段生成;
如果某個(gè)節(jié)點(diǎn)數(shù)據(jù)一旦出現(xiàn)質(zhì)量問題,則需要根據(jù)這里的鏈路關(guān)系進(jìn)行逐級向底層排查,完成問題修復(fù)后,還需要根據(jù)關(guān)系向上逐級修復(fù)清洗;如此通過血緣關(guān)系進(jìn)行數(shù)據(jù)質(zhì)量的分析和把控。
3.5 監(jiān)控管理
元數(shù)據(jù)監(jiān)控管理是元數(shù)據(jù)系統(tǒng)重要的功能,但不一定是必須的功能。
元數(shù)據(jù)系統(tǒng)其實(shí)是對存量的元數(shù)據(jù)管理工具,從另一個(gè)維度說,是對元數(shù)據(jù)事后管理的工具。當(dāng)元數(shù)據(jù)變更時(shí),系統(tǒng)通過采集的方式感知元數(shù)據(jù)的變化,但系統(tǒng)發(fā)現(xiàn)元數(shù)據(jù)變化時(shí),其實(shí)已經(jīng)對某些數(shù)據(jù)產(chǎn)生了影響。如某個(gè)字段的變化,導(dǎo)致后續(xù)數(shù)據(jù)ETL開發(fā)調(diào)度的運(yùn)行報(bào)錯(cuò)。在元數(shù)據(jù)監(jiān)控管理中,重點(diǎn)是元數(shù)據(jù)的事前監(jiān)控和元數(shù)據(jù)的事后監(jiān)控。
3.5.1 事后監(jiān)控
元數(shù)據(jù)事后監(jiān)控主要在采集任務(wù)的時(shí)候,但元數(shù)據(jù)發(fā)生變化時(shí),及時(shí)通知相關(guān)元數(shù)據(jù)負(fù)責(zé)人,通過元數(shù)據(jù)的血緣分析可以分析出元數(shù)據(jù)變化的影響,基于采集的數(shù)據(jù)源管理屬性,系統(tǒng)可以給數(shù)據(jù)影響的相關(guān)人員發(fā)生短信、郵件、微信等信息。
3.5.2 事前監(jiān)控
元數(shù)據(jù)的事前監(jiān)控是最重要的,這里的元數(shù)據(jù)事前監(jiān)控主要針對的數(shù)據(jù)庫層面的,如數(shù)據(jù)庫表、字段、函數(shù)、存儲過程等變化。如果客戶有系統(tǒng)上線管理系統(tǒng),那么與元數(shù)據(jù)接口,可以更好的管控元數(shù)據(jù)事前監(jiān)控。如果沒有相關(guān)上線管理系統(tǒng),只能在上線之前,將相關(guān)上線腳本提前預(yù)制到系統(tǒng)中,并制定預(yù)警時(shí)間范圍,當(dāng)系統(tǒng)監(jiān)控到數(shù)據(jù)源變化情況時(shí),將變化情況及時(shí)采集,并與提前預(yù)制的上線腳本進(jìn)行比對,發(fā)現(xiàn)兩種異常時(shí),及時(shí)告知上線人員及相關(guān)管理人員,在最短的時(shí)間內(nèi)容,提醒上線人員異常信息,根據(jù)具體情況來更新上傳腳本或者數(shù)據(jù)回滾。
與上線管理系統(tǒng)對接的事前監(jiān)控重點(diǎn)是打通上線時(shí)運(yùn)行的數(shù)據(jù)庫腳本,通過接口的方式獲取腳本信息,同時(shí)啟動監(jiān)控系統(tǒng)上線,但系統(tǒng)數(shù)據(jù)庫一旦發(fā)生變化時(shí),及時(shí)進(jìn)行預(yù)警。
3.6 統(tǒng)計(jì)與分析
元數(shù)據(jù)統(tǒng)計(jì)分析通過搜集、匯總、計(jì)算統(tǒng)計(jì)元數(shù)據(jù),利用統(tǒng)計(jì)信息對元數(shù)據(jù)本身的分布、變更趨勢,系統(tǒng)、人員等特性進(jìn)行不同維度的定量定性分析,既可橫向?qū)Ρ?#xff0c;也可總結(jié)歷史、預(yù)測未來。 總體反映元數(shù)據(jù)的現(xiàn)狀與發(fā)展規(guī)律 ,協(xié)助企業(yè)更進(jìn)一步的提升元數(shù)據(jù)管理認(rèn)知,提高元數(shù)據(jù)管理水平,輔助企業(yè)管理者作出正確決策 。
元數(shù)據(jù)統(tǒng)計(jì)解決元數(shù)據(jù)匯總之后的日變化量、分布情況等。常見的統(tǒng)計(jì)維度有時(shí)點(diǎn)數(shù)、元數(shù)據(jù)類型、元數(shù)據(jù)更新狀態(tài)(新增、刪除、修改)、元數(shù)據(jù)來源,度量值主要是個(gè)數(shù)、占比等。
元數(shù)據(jù)分析解決元數(shù)據(jù)的影響分析、視圖關(guān)系分析、關(guān)聯(lián)度分析等。影響分析解決某一個(gè)元數(shù)據(jù)變動產(chǎn)生的影響鏈路,視圖關(guān)系分析解決視圖加工鏈路,關(guān)聯(lián)度分析是基于血緣關(guān)系,將關(guān)聯(lián)度特別高的元數(shù)據(jù)排名。
元數(shù)據(jù)稽查是解決元數(shù)據(jù)質(zhì)量問題,主要從元數(shù)據(jù)注釋、元數(shù)據(jù)同名不同義、元數(shù)據(jù)命名規(guī)則等對某個(gè)數(shù)據(jù)源的元數(shù)據(jù)質(zhì)量檢查。通過元數(shù)據(jù)稽查功能發(fā)現(xiàn)元數(shù)據(jù)的質(zhì)量問題。
3.7 接口管理
元數(shù)據(jù)非常重要,很多系統(tǒng)都與元數(shù)據(jù)對接,元數(shù)據(jù)常見的對外接口有:元數(shù)據(jù)列表、元數(shù)據(jù)詳情、元數(shù)據(jù)血緣鏈路、元數(shù)據(jù)解析引擎等。
4 元數(shù)據(jù)系統(tǒng)設(shè)計(jì)
- 數(shù)據(jù)管理之元數(shù)據(jù)管理
4.1 架構(gòu)設(shè)計(jì)
元數(shù)據(jù)管理的應(yīng)用通常一款元數(shù)據(jù)管理工具應(yīng)具備元模型設(shè)計(jì)、元數(shù)據(jù)采集、元數(shù)據(jù)分析、數(shù)據(jù)地圖展現(xiàn)等核心功能。元數(shù)據(jù)包括:元模型、元數(shù)據(jù)采集、元數(shù) 據(jù)注冊、元數(shù)據(jù)應(yīng)用、元數(shù)據(jù)服務(wù)等;
架構(gòu)圖2:
元數(shù)據(jù)系統(tǒng)整體分為接入層、存儲層、功能層和應(yīng)用層。
- 接入層:適配不同元數(shù)據(jù)生產(chǎn)方,轉(zhuǎn)換成標(biāo)準(zhǔn)定義,輸出全種類實(shí)體、關(guān)系變更消息。
- 存儲層:基于元模型的實(shí)體、關(guān)系的存儲與查詢,支持統(tǒng)計(jì)與分析能力。
- 功能層:提供元模型管理、元數(shù)據(jù)分析應(yīng)用、元數(shù)據(jù)管理、元數(shù)據(jù)檢核等功能。
- 應(yīng)用層:基于定板元數(shù)據(jù)提供單點(diǎn)、復(fù)雜查詢服務(wù),基于分析引擎提供面向不同角色的元數(shù)據(jù)分析服務(wù)。
作為企業(yè)數(shù)據(jù)治理的基礎(chǔ),元數(shù)據(jù)管理平臺從功能上主要包括:元數(shù)據(jù)采集服務(wù),元數(shù)據(jù)訪問服務(wù)、元數(shù)據(jù)管理服務(wù)和元數(shù)據(jù)分析服務(wù)。
一文徹底了解元數(shù)據(jù)管理與架構(gòu)設(shè)計(jì)
元數(shù)據(jù)的架構(gòu),一般分為集中式架構(gòu)和分散式架構(gòu)。
集中式的架構(gòu),指的是采集多種數(shù)據(jù)源的元數(shù)據(jù)到元數(shù)據(jù)自己的存儲中來,再集中加工給其他場景提供服務(wù);而分散式的架構(gòu),沒有自己的元數(shù)據(jù)存儲,而是在使用的時(shí)候,去即時(shí)的查詢其他數(shù)據(jù)源的元數(shù)據(jù)。
這兩種架構(gòu)各有利弊。
集中式的架構(gòu),可以快速的檢索元數(shù)據(jù),抽取的時(shí)候,也可以自由的轉(zhuǎn)換,自定義補(bǔ)充,提升了元數(shù)據(jù)的質(zhì)量;同時(shí)也有缺點(diǎn),需要保證自身存儲和其他源數(shù)據(jù)的一致性,增加了流程復(fù)雜度和工作量。
分散式架構(gòu)的優(yōu)點(diǎn)是,元數(shù)據(jù)總能夠保持最新,查詢更加的簡單;缺點(diǎn)也很明顯,無法自定義或修改元數(shù)據(jù)項(xiàng),查詢也受源系統(tǒng)可用性的影響。
一般我們推薦使用集中式架構(gòu),定時(shí)采集源系統(tǒng)的元數(shù)據(jù),通過 hook 方式捕捉各種引擎運(yùn)行時(shí)數(shù)據(jù)血緣關(guān)系,并且定義通用的數(shù)據(jù)模型提供給第三方接入使用。
元數(shù)據(jù)架構(gòu):
(1)使用 Hook 方式采集作業(yè)運(yùn)行時(shí)數(shù)據(jù)血緣
作業(yè)的數(shù)據(jù)血緣,有三種方式來采集:
- 靜態(tài)解析 SQL;
- 實(shí)時(shí)抓取正在執(zhí)行的 SQL,解析執(zhí)行計(jì)劃,解析輸入表和輸出表;
- 解析任務(wù)日志,獲取輸入表和輸出表。
第一種方式,靜態(tài)解析 SQL,可以使用 Antlr4 仿照 Hive 的 SQL 解析來實(shí)現(xiàn),但是不能保證 SQL 的準(zhǔn)確性,因?yàn)槿蝿?wù)都沒有執(zhí)行。
第二種方式,實(shí)時(shí)抓取執(zhí)行的 SQL,這是執(zhí)行后產(chǎn)生的,可以保證是準(zhǔn)確的;
第三種方式,要分析大量的日志,而且時(shí)效性很難保證。
所以,第一種方式和第二種方式都是可以的,優(yōu)先選擇第二種方式來做。
當(dāng)前眾多大數(shù)據(jù)組件都提供了 Hook 鉤子的方式,相當(dāng)于以插件的方式實(shí)時(shí)的捕捉執(zhí)行計(jì)劃。解析之后,推送到 Kafka,再去解析到分布式的圖數(shù)據(jù)庫中。
(2)通用的數(shù)據(jù)源模塊來對接多種數(shù)據(jù)源
一般公司肯定是存在多種不同類型的數(shù)據(jù)源的,比如 Mysql,Oracle,Hive 等,可以制作一個(gè)通用的模塊,提供統(tǒng)一的接口,來對接這些不同的數(shù)據(jù)源。
數(shù)據(jù)源模塊則提供三方接口供采集模塊定時(shí)采集數(shù)據(jù)源的元數(shù)據(jù)信息。
核心的技術(shù)點(diǎn),就是要隔離不同數(shù)據(jù)源的驅(qū)動,這些驅(qū)動也需要以插件化來集成到數(shù)據(jù)源模塊中。
(3)還需要提供個(gè)性化的 SDK 接入
如果公司的核心業(yè)務(wù)部門比較多,公司的數(shù)據(jù)平臺產(chǎn)品比較多,那么勢必會產(chǎn)生一些其他的元數(shù)據(jù)。比如監(jiān)控平臺監(jiān)控的資源使用情況、任務(wù)調(diào)度的任務(wù)運(yùn)行情況等。
這種 SDK 接入,需要考慮接入時(shí)的安全校驗(yàn),限流(可定時(shí)消費(fèi)一批Kafka數(shù)據(jù)來實(shí)現(xiàn))等問題。
(4)后端存儲的統(tǒng)一模型
元數(shù)據(jù)類型紛繁雜亂,需要統(tǒng)一整理抽象,再分類存儲,并且設(shè)計(jì)之初,就要盡可能的詳盡所有情況,設(shè)計(jì)出統(tǒng)一的表模型,預(yù)留擴(kuò)展字段。
有一套模型是專門解決元數(shù)據(jù)模型通用性問題的,叫做 CWM (Common Warehouse Metamodel)標(biāo)準(zhǔn),翻譯過來是公共倉庫元模型,這里提供了三層元模型來存儲一切不同類型的元數(shù)據(jù),當(dāng)然設(shè)計(jì)起來比較復(fù)雜,一般超大型企業(yè)會采用這種模型。
如果可以詳盡公司未來的元數(shù)據(jù)種類,可以分門別類建不同類型的元數(shù)據(jù)模型表來解決。
參考有贊這樣的大公司,元數(shù)據(jù)可分為:
- 基礎(chǔ)元數(shù)據(jù)表;
- 趨勢數(shù)據(jù)表;
- 任務(wù)元數(shù)據(jù)表;
- 血緣數(shù)據(jù)表
4.2 元數(shù)據(jù)采集服務(wù)
能夠適應(yīng)異構(gòu)環(huán)境,支持從傳統(tǒng)關(guān)系型數(shù)據(jù)庫和大數(shù)據(jù)平臺中采集從數(shù)據(jù)產(chǎn)生系統(tǒng)到數(shù)據(jù)加工處理系統(tǒng)到數(shù)據(jù)應(yīng)用報(bào)表系統(tǒng)的全量元數(shù)據(jù),包括過程中的數(shù)據(jù)實(shí)體(系統(tǒng)、庫、表、字段的描述)以及數(shù)據(jù)實(shí)體加工處理過程中的邏輯;數(shù)據(jù)管理平臺內(nèi)置多種采集適配器,支持多種存儲格式的元數(shù)據(jù)自動獲取,如:數(shù)據(jù)庫、報(bào)表工具、ETL工具、文件系統(tǒng)等,同時(shí)無法完成自動獲取的元數(shù)據(jù),提供了可自定義的元數(shù)據(jù)采集模版完成元數(shù)據(jù)的批量導(dǎo)入。
4.3 元數(shù)據(jù)管理服務(wù)
實(shí)現(xiàn)元數(shù)據(jù)的模型定義并存儲,在功能層包裝成各類元數(shù)據(jù)功能,最終對外提供應(yīng)用及展現(xiàn);提供元數(shù)據(jù)分類和建模、血緣關(guān)系和影響分析,方便數(shù)據(jù)的跟蹤和回溯。
數(shù)據(jù)管理平臺提供各類元數(shù)據(jù)管理,包括:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù),支持元數(shù)據(jù)的基本信息、屬性、依賴關(guān)系、組合關(guān)系的增刪改查操作。
最新元數(shù)據(jù)和定版元數(shù)據(jù)隔離,在最新元數(shù)據(jù)中的改動不影響定版元數(shù)據(jù)的正常使用,同時(shí)每次發(fā)布都有版本留痕,支持各版本的對比分析。
4.4 元數(shù)據(jù)分析服務(wù)
元數(shù)據(jù)的應(yīng)用一般包括數(shù)據(jù)地圖,數(shù)據(jù)的血緣、影響分析,全鏈分析等;元數(shù)據(jù)管理平臺提供了豐富的元數(shù)據(jù)分析功能,包括血緣分析、影響分析、全鏈分析、關(guān)聯(lián)度分析、屬性值差異分析等,分析出元數(shù)據(jù)的來龍去脈,快速識別元數(shù)據(jù)的價(jià)值,掌握元數(shù)據(jù)變更可能造成的影響,以便更有效的評估變化帶來的風(fēng)險(xiǎn),從而幫助用戶高效準(zhǔn)確的對數(shù)據(jù)資產(chǎn)進(jìn)行清理、維護(hù)與使用。
血緣分析:告訴你數(shù)據(jù)來自哪里,都經(jīng)過了哪些加工。
影響分析:告訴你數(shù)據(jù)都去了哪里,經(jīng)過了哪些加工。
冷熱度分析:告訴你哪些數(shù)據(jù)是企業(yè)常用數(shù)據(jù),哪些數(shù)據(jù)屬于僵死數(shù)據(jù)。
關(guān)聯(lián)度分析:告訴你數(shù)據(jù)和其他數(shù)據(jù)的關(guān)系以及它們的關(guān)系是怎樣建立的。
數(shù)據(jù)資產(chǎn)地圖:告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么。
附錄A:建設(shè)范例
A.1 網(wǎng)易元數(shù)據(jù)管理方案
- 你真的了解數(shù)倉元數(shù)據(jù)嗎,數(shù)據(jù)地圖你又知道多少?
網(wǎng)易的元數(shù)據(jù)中心的界面(數(shù)據(jù)地圖)是基于元數(shù)據(jù)中心構(gòu)建的一站式企業(yè)數(shù)據(jù)資產(chǎn)目錄,可以看作是元數(shù)據(jù)中心的界面。數(shù)據(jù)開發(fā)、分析師、數(shù)據(jù)運(yùn)營、算法工程師可以在數(shù)據(jù)地圖上完成數(shù)據(jù)的檢索,解決了“不知道有哪些數(shù)據(jù)?”“到哪里找數(shù)據(jù)?”“如何準(zhǔn)確的理解數(shù)據(jù)”的難題。
數(shù)據(jù)地圖提供了多維度的檢索功能,使用者可以按照表名、列名、注釋、主題域、分層、指標(biāo)進(jìn)行檢索,結(jié)果按照匹配相關(guān)度進(jìn)行排序。考慮到數(shù)據(jù)中臺中有一些表是數(shù)倉維護(hù)的表,有一些表數(shù)倉已經(jīng)不再維護(hù),在結(jié)果排序的時(shí)候,增加了數(shù)倉維護(hù)的表優(yōu)先展示的規(guī)則。同時(shí)數(shù)據(jù)地圖還提供了按照主題域、業(yè)務(wù)過程導(dǎo)覽,可以幫助使用者快速了解當(dāng)前有哪些表可以使用。
當(dāng)使用者定位到某一個(gè)表打開時(shí),會進(jìn)入詳情頁,詳情頁中會展示表的基礎(chǔ)信息,字段信息、分區(qū)信息、產(chǎn)出信息以及數(shù)據(jù)血緣。數(shù)據(jù)血緣可以幫助使用者了解這個(gè)表的來源和去向,這個(gè)表可能影響的下游應(yīng)用和報(bào)表,這個(gè)表的數(shù)據(jù)來源。
數(shù)據(jù)地圖同時(shí)還提供了數(shù)據(jù)預(yù)覽的功能,考慮到安全性因素,只允許預(yù)覽 10 條數(shù)據(jù),用于判斷數(shù)據(jù)是否符合使用者的預(yù)期。數(shù)據(jù)地圖提供的收藏功能, 方便使用者快速找到自己經(jīng)常使用的表。當(dāng)數(shù)據(jù)開發(fā)、分析師、數(shù)據(jù)運(yùn)營找到自己需要的表時(shí),在數(shù)據(jù)地圖上可以直接發(fā)起申請對該表的權(quán)限申請。數(shù)據(jù)地圖對于提高數(shù)據(jù)發(fā)現(xiàn)的效率,實(shí)現(xiàn)非技術(shù)人員自助取數(shù)有重要作用。經(jīng)過我的實(shí)踐,數(shù)據(jù)地圖是數(shù)據(jù)中臺中使用頻率最高的一個(gè)工具產(chǎn)品,在網(wǎng)易,每天都有 500 以上人在使用數(shù)據(jù)地圖查找數(shù)據(jù)。
A.2 美團(tuán)團(tuán)隊(duì)元數(shù)據(jù)管理方案
美團(tuán)數(shù)據(jù)地圖作為元數(shù)據(jù)應(yīng)用的一個(gè)產(chǎn)品,聚焦于數(shù)據(jù)使用者的“找數(shù)”場景,實(shí)現(xiàn)檢索數(shù)據(jù)和理解數(shù)據(jù)的“找數(shù)”訴求。我們通過對離線數(shù)據(jù)集和在線數(shù)據(jù)集的元數(shù)據(jù)刻畫,滿足了用戶找數(shù)和理解數(shù)的訴求,通過血緣圖譜,完成物理表到產(chǎn)品的血緣建設(shè),消除用戶人肉評估的痛苦。
1.離線場景下的元數(shù)據(jù)中心
關(guān)鍵字檢索和向?qū)Р樵児餐鉀Q了“找數(shù)據(jù)”的問題:大部分的檢索數(shù)據(jù)場景下,數(shù)據(jù)使用者都可以通過關(guān)鍵字檢索來得到匹配結(jié)果。剩下的一小部分場景,例如,對于新人入職后如何了解整個(gè)數(shù)倉和指標(biāo)的體系(數(shù)倉分幾層,每層解決什么問題,都孵化出什么模型;整個(gè)指標(biāo)、維度體系都是怎么分類,有哪些指標(biāo)和維度),這部分場景可以使用向?qū)Р樵児δ堋O驅(qū)Р樵兿喈?dāng)于分類查詢,將表和指標(biāo)按照業(yè)務(wù)過程進(jìn)行分類,用戶可以按照分類逐步找到想要的表或指標(biāo)。
打通了業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間的關(guān)系,提高了“找數(shù)據(jù)”的能力:通過“Wherehows”查找到指標(biāo)后,不僅不可查看指標(biāo)的業(yè)務(wù)定義,還能查看指標(biāo)的技術(shù)實(shí)現(xiàn)邏輯,指標(biāo)在哪些維度或維度組合中已經(jīng)實(shí)現(xiàn),并且能夠在哪張表里找到這些維度,或維度組合的指標(biāo)數(shù)據(jù)。反之,也可以知道在某個(gè)維度下已經(jīng)實(shí)現(xiàn)了哪些指標(biāo),對應(yīng)的指標(biāo)在哪些表里。這些功能能讓用戶更加方便地找到想要的數(shù)據(jù)。
提供了較為完善的數(shù)據(jù)信息,幫助用戶更好理解數(shù)據(jù):對于表的信息,“Wherehows”除了提供表和字段的中英文名稱、描述信息等基礎(chǔ)信息外,為了幫助用戶更好地理解表的建設(shè)思路,我們還提供了表的星型模型(可以關(guān)聯(lián)的一致性維度及對應(yīng)的維度表)、表的血緣關(guān)系等信息。
2.業(yè)務(wù)數(shù)據(jù)場景下的元數(shù)據(jù)中心
業(yè)務(wù)數(shù)據(jù)場景主要想解決的一個(gè)問題是,如何知道一個(gè)業(yè)務(wù)表(MySQL表)有沒有同步到數(shù)倉。如果沒有同步,能夠找誰進(jìn)行同步。因?yàn)橐呀?jīng)打通“業(yè)務(wù)表 -> 數(shù)倉表 -> 產(chǎn)品”三者之間的血緣關(guān)系,我們能夠輕松解決業(yè)務(wù)數(shù)據(jù)場景的問題。
3.生產(chǎn)評估場景下的元數(shù)據(jù)中心
在日常數(shù)據(jù)生產(chǎn)工作中,我們經(jīng)常需要對表進(jìn)行影響評估、故障排查、鏈路分析等工作,這些工作如果靠純?nèi)斯とプ?#xff0c;費(fèi)時(shí)費(fèi)力。但現(xiàn)在我們已經(jīng)打通了“業(yè)務(wù)表/字段 -> 數(shù)倉表/字段 -> 產(chǎn)品”三者之間的血緣關(guān)系,就能夠在10分鐘內(nèi)完成評估工作。對于不同的場景,血緣鏈路提供了兩個(gè)便捷的功能:過濾和剪枝。例如,某個(gè)表邏輯需要修改,需要看影響哪些下游表或產(chǎn)品?應(yīng)該要通知哪些RD和PM?這種情況下,血緣工具直觀地顯示影響了哪些負(fù)責(zé)人和產(chǎn)品,以及這個(gè)表的下游鏈路。
有些表的鏈路很長,整個(gè)血緣關(guān)系圖很大,這樣會導(dǎo)致用戶定位信息或問題。所以血緣工具提供了剪枝的功能,對于沒用的、不想看到的分支可以剪掉,從而讓整個(gè)鏈路變得更加直觀。
4. 元數(shù)據(jù)功能
A.3 元數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)
- 元數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)
1. 數(shù)據(jù)表管理模塊
數(shù)據(jù)表信息維護(hù)需要如下信息:
- 表的元數(shù)據(jù)信息(引擎、字段等)
- 表類型(維表或事實(shí)表)
- 表的使用情況(是否被模型使用)
- 表對應(yīng)的ETL
- 描述信息
- 表的所有人
- 表的建表語句
2. 模型管理模塊
模型分為 數(shù)據(jù)表模型 和 SQL模型
2.1 數(shù)據(jù)表模型管理
需要維護(hù)如下信息:
- 事實(shí)表名稱(必填)
- 備注信息
關(guān)聯(lián)配置
- 主數(shù)據(jù)表(表名)
- 關(guān)聯(lián)方式(join、left join、semi join)
- 關(guān)聯(lián)表
- 關(guān)聯(lián)字段(關(guān)聯(lián)字段,關(guān)聯(lián)關(guān)系(=,<,>))
- 關(guān)聯(lián)限制(限制字段,限制關(guān)系,限制值)
- 模型ER圖(繪制表關(guān)系圖)
模型詳情
- 數(shù)據(jù)表
- 字段名稱
- 字段類型
- 字段描述
- 是否使用
- 維度信息
2.2 SQL模型
- 數(shù)據(jù)主題(業(yè)務(wù)用途)
- 查詢引擎(查詢工具)
- SQL語句
模型詳情
- 字段名稱
- 字段類型
- 字段描述
- 維度信息
- 是否使用
3. 維度管理模塊
- 維度名稱
- 業(yè)務(wù)定義
- 業(yè)務(wù)分類
- 維表
- 是否是日期維
- 對應(yīng)code
- 對應(yīng)name
- 綁定維表(如果有維表)
4. 指標(biāo)管理模塊
包括基礎(chǔ)信息管理、技術(shù)信息管理、關(guān)聯(lián)指標(biāo)管理、關(guān)聯(lián)應(yīng)用管理
核心部分是指標(biāo)與模型的綁定關(guān)系,通過使用演進(jìn)形成了當(dāng)前系統(tǒng)兩類綁定關(guān)系:綁定物理模型和構(gòu)建虛擬模型。
基礎(chǔ)信息管理(業(yè)務(wù)維護(hù))
- 指標(biāo)名稱
- 業(yè)務(wù)分類
- 統(tǒng)計(jì)頻率
- 精度
- 單位
- 指標(biāo)類型
- 指標(biāo)定義
- 計(jì)算邏輯
- 分析方法
- 影響因素
- 分析維度
技術(shù)信息管理(技術(shù)維護(hù))
- 指標(biāo)名稱(必填)
- 數(shù)據(jù)類型
模型信息
- 模型名稱
- 篩選指標(biāo)
- 公共引擎
- 查詢引擎
基礎(chǔ)指標(biāo)信息
- 基礎(chǔ)指標(biāo)
- 業(yè)務(wù)線/主題
- 指標(biāo)代碼
- 數(shù)據(jù)模型
- 支持維度
- 計(jì)算公式
- 分析維度
- 場景描述
基礎(chǔ)模型信息
- 數(shù)據(jù)模型名稱
- 查詢引擎
- 綁定字段
- 計(jì)算公式
- 操作人
- 操作時(shí)間
- 支持維度
5. 應(yīng)用管理
應(yīng)用管理由數(shù)據(jù)應(yīng)用、外部應(yīng)用、數(shù)據(jù)地圖三大模塊組成,它們構(gòu)成了對外服務(wù)的主體,記錄了外部應(yīng)用與平臺內(nèi)管理的指標(biāo)、維度、模型和表的關(guān)聯(lián)關(guān)系,也提供數(shù)據(jù)查詢展示、應(yīng)用層ETL生產(chǎn)的能力。而且數(shù)據(jù)開發(fā)人員從底層向上觀察,可以追蹤數(shù)據(jù)最終的所有流向;業(yè)務(wù)分析人員從頂層向下觀察,可以看到構(gòu)成服務(wù)的所有數(shù)據(jù)來源。
5.1 數(shù)據(jù)應(yīng)用模塊
數(shù)據(jù)應(yīng)用模塊是記錄生成每個(gè)服務(wù)所需的指標(biāo)、維度和數(shù)據(jù)模型的關(guān)系。每次服務(wù)中可以包含多個(gè)指標(biāo),這些指標(biāo)可以來源于多個(gè)數(shù)據(jù)模型,不過不同的數(shù)據(jù)模型中需要包含公共維度,因?yàn)槭峭ㄟ^這些公共維度將不同模型關(guān)聯(lián)起來。
數(shù)據(jù)應(yīng)用中構(gòu)建的服務(wù)可以發(fā)布成查詢服務(wù)、應(yīng)用層ETL生產(chǎn)服務(wù)、對外API數(shù)據(jù)接口服務(wù)、通用報(bào)表配置服務(wù),來滿足業(yè)務(wù)的不同需求
需要信息:
- 應(yīng)用名稱
- 查詢引擎
統(tǒng)計(jì)指標(biāo)列表
- 統(tǒng)計(jì)指標(biāo)
- 指標(biāo)代碼
- 數(shù)據(jù)模型
- 支持維度
- 分析維度列表
where條件
- 邏輯運(yùn)算
- 過濾字段
- 是否為動態(tài)參數(shù)
- 比較運(yùn)算
- 值
- 操作
- 備注
需要功能:
- 生成SQL
- 執(zhí)行查詢
5.2 外部應(yīng)用模塊
外部應(yīng)用模塊管理外部應(yīng)用和應(yīng)用內(nèi)的模塊,以及這些模塊訂閱的對應(yīng)數(shù)據(jù)應(yīng)用,目標(biāo)是實(shí)現(xiàn)API接口調(diào)用的權(quán)限管理和數(shù)據(jù)最終流向的記錄。
具體的實(shí)現(xiàn)上模塊
首先創(chuàng)建對應(yīng)的外部應(yīng)用,記錄:
- 對應(yīng)的外部應(yīng)用
- 記錄外部應(yīng)用的名稱
- URL
-APPKEY等信息
然后由對應(yīng)應(yīng)用的負(fù)責(zé)人創(chuàng)建模塊,記錄:
- 模塊名稱
- URL
- moduleKey等信息。
這些信息完善后,由對應(yīng)的數(shù)據(jù)應(yīng)用賦權(quán)給對應(yīng)的模塊,建立起數(shù)據(jù)應(yīng)用與外部應(yīng)用的聯(lián)系。最后在外部應(yīng)用調(diào)用平臺對外API接口時(shí),進(jìn)行權(quán)限管理。
5.3 數(shù)據(jù)地圖
數(shù)據(jù)地圖功能是追查數(shù)據(jù)的流向,可以從數(shù)據(jù)表、模型、指標(biāo)、數(shù)據(jù)應(yīng)用、外部應(yīng)用任意節(jié)點(diǎn)查看上游數(shù)據(jù)來源和下游數(shù)據(jù)去向
A.4 元數(shù)據(jù)治理產(chǎn)品案例實(shí)踐
- 元數(shù)據(jù)治理:產(chǎn)品方案介紹及案例實(shí)踐
1. 案例場景描述
目標(biāo):通過一個(gè)簡化的案例,介紹元數(shù)據(jù)基本的治理流程,該案例將介紹業(yè)務(wù)庫存量表的元數(shù)據(jù)治理流程。
場景:某業(yè)務(wù)系統(tǒng)的MySQL庫中存儲了一張「客戶信息表」,該表在實(shí)際業(yè)務(wù)中使用比較頻繁,但是由于元數(shù)據(jù)缺失導(dǎo)致經(jīng)常面臨各種數(shù)據(jù)答疑、數(shù)據(jù)使用不規(guī)范等問題。故計(jì)劃將該表采集到平臺上進(jìn)行治理,治理內(nèi)容主要是完善表的業(yè)務(wù)信息、技術(shù)信息、管理信息等,以便將治理后的數(shù)據(jù)表呈現(xiàn)給用戶,方便用戶快速理解和使用表。
2. 操作流程說明
為了實(shí)現(xiàn)上述案例的場景,我們需要完成以下事項(xiàng):
(1)登記MySQL數(shù)據(jù)源,方便后續(xù)元數(shù)據(jù)使用;
(2)采集MySQL數(shù)據(jù)源中的「客戶信息表」的元數(shù)據(jù);
(3)「客戶信息表」的元數(shù)據(jù)治理,包括元數(shù)據(jù)的安全、質(zhì)量、標(biāo)準(zhǔn)、部門歸屬等信息;
(4)已治理的元數(shù)據(jù)表進(jìn)行發(fā)布,發(fā)布后業(yè)務(wù)人員可以在資產(chǎn)目錄中查看完整的元數(shù)據(jù)信息,以便業(yè)務(wù)使用。
3. 操作步驟
第一步:登記數(shù)據(jù)源
在平臺的數(shù)據(jù)源管理模塊中,登記業(yè)務(wù)系統(tǒng)的MySQL數(shù)據(jù)源信息。登記內(nèi)容主要包括數(shù)據(jù)源名稱、負(fù)責(zé)人、數(shù)據(jù)源連接、用戶名和密碼等信息。
第二步:創(chuàng)建元數(shù)據(jù)采集任務(wù)
在元數(shù)據(jù)采集模塊創(chuàng)建采集任務(wù),采集上一步中登記的MySQL數(shù)據(jù)源中的「客戶信息表」,根據(jù)實(shí)際業(yè)務(wù)場景需要設(shè)置采集的間隔周期。
第三步:申請?jiān)獢?shù)據(jù)治理
元數(shù)據(jù)治理是整個(gè)操作實(shí)踐過程中最重要,也是最復(fù)雜的一步。元數(shù)據(jù)治理一般會涉及到多部門間的協(xié)作治理,例如業(yè)務(wù)信息的補(bǔ)充完善需要業(yè)務(wù)部門專員參與治理,技術(shù)信息完善需要IT部門開發(fā)參與治理,最終治理的元數(shù)據(jù)在發(fā)布申請時(shí)需要治理部門進(jìn)行最終審核確認(rèn)。
上一步中采集的元數(shù)據(jù)表會在平臺自動注冊為一條元數(shù)據(jù)記錄,此時(shí)元數(shù)據(jù)只有基本的物理信息例如表名、字段名、字段類型等,信息非常不完善。此時(shí)元數(shù)據(jù)是草稿狀態(tài),需要通過申請治理來派發(fā)治理工單給相關(guān)人員處理,如下圖所示:
工單接收人接收到治理工單后,可以對元數(shù)據(jù)信息進(jìn)行補(bǔ)充,包括表級和字段級的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)等信息。表級元數(shù)據(jù)治理頁面如下所示:
表級元數(shù)據(jù)信息分為基礎(chǔ)信息、業(yè)務(wù)信息、技術(shù)信息,如果上述元數(shù)據(jù)內(nèi)容還不夠,還需要更多的元數(shù)據(jù)屬性,系統(tǒng)也支持自定義屬性及值域,以便業(yè)務(wù)靈活擴(kuò)展元數(shù)據(jù)。
Tips:元數(shù)據(jù)治理頁中,表的技術(shù)信息可以點(diǎn)擊右側(cè)的“掃描技術(shù)信息”按鈕,觸發(fā)一次元數(shù)據(jù)掃描功能。掃描后系統(tǒng)會自動將源庫中的一些物理信息展示在頁面上,方便用戶確認(rèn)最新表信息并覆蓋填充。
接下來是字段的元數(shù)據(jù)治理頁面,如下所示:
這里可以針對表的每個(gè)字段進(jìn)行治理,治理內(nèi)容包括基礎(chǔ)信息、業(yè)務(wù)信息、技術(shù)信息。圖中紅色圈選出來的幾個(gè)信息是和平臺其他子產(chǎn)品相關(guān)聯(lián)的內(nèi)容,這里簡單說明一下:
- 安全級別:可以在配置管理模塊中設(shè)置安全級別的自動推薦方式,可以通過安全中心識別任務(wù)掃描獲取安全級別,也可以通過第三方NLP接口智能推薦安全級別;
- 數(shù)據(jù)元:和平臺的數(shù)據(jù)標(biāo)準(zhǔn)模塊打通,數(shù)據(jù)標(biāo)準(zhǔn)中會定義數(shù)據(jù)元規(guī)范、格式、值域等;
- 數(shù)據(jù)質(zhì)量管理信息:和平臺數(shù)據(jù)質(zhì)量中心打通,關(guān)聯(lián)系統(tǒng)規(guī)則模板;
- 關(guān)聯(lián)指標(biāo):和指標(biāo)系統(tǒng)打通,能夠了解字段和指標(biāo)的關(guān)聯(lián)關(guān)系;
- 關(guān)聯(lián)標(biāo)簽:和標(biāo)簽系統(tǒng)打通,能夠了解字段和標(biāo)簽的關(guān)聯(lián)關(guān)系。
其他字段的治理項(xiàng)操作頁面基本一致,這里就不一一展示了。
第四步:申請?jiān)獢?shù)據(jù)發(fā)布
經(jīng)過第三步的元數(shù)據(jù)治理后(實(shí)際治理過程可能需要多輪治理才能達(dá)到申請發(fā)布的條件)可以申請發(fā)布,以便將治理后的表資產(chǎn)共享給業(yè)務(wù)人員。
第五步:數(shù)據(jù)資產(chǎn)查看
已治理并發(fā)布后的元數(shù)據(jù),可在資產(chǎn)目錄中的對應(yīng)業(yè)務(wù)目錄下找到表,或者直接根據(jù)關(guān)鍵字搜索表。找到表后在表詳情頁可查看元數(shù)據(jù)信息,其中表和字段的基礎(chǔ)信息、業(yè)務(wù)信息、技術(shù)信息都比較完善,在此基礎(chǔ)上平臺也提供了元數(shù)據(jù)其他豐富的功能例如數(shù)據(jù)預(yù)覽、產(chǎn)出信息、數(shù)據(jù)血緣等等。
以上通過一個(gè)簡單案例完成了元數(shù)據(jù)表從業(yè)務(wù)系統(tǒng)登記、采集、治理、發(fā)布、查看使用的主流程。實(shí)際業(yè)務(wù)場景中企業(yè)往往存在著大量歷史數(shù)據(jù)亟待治理、同時(shí)新增數(shù)據(jù)的規(guī)范治理等,數(shù)據(jù)治理工作也會更加艱巨、復(fù)雜,治理項(xiàng)涵蓋內(nèi)容也會更多更深,由此也是對產(chǎn)品提出了更多的要求和挑戰(zhàn)。
附錄B:其他相關(guān)參考博文
- 數(shù)據(jù)治理:元數(shù)據(jù)及元數(shù)據(jù)管理策略、方法和技術(shù)
- 數(shù)據(jù)倉庫中的元數(shù)據(jù)管理!
- 元數(shù)據(jù)管理拉垮得一批,還談啥數(shù)據(jù)治理?
- 數(shù)據(jù)服務(wù)基礎(chǔ)能力之元數(shù)據(jù)管理
- 終于有人把元數(shù)據(jù)講明白了
- 元數(shù)據(jù)是什么?如何管理元數(shù)據(jù)?
- 別人家的元數(shù)據(jù)系統(tǒng)是怎么設(shè)計(jì)的
- 元數(shù)據(jù)管理-解決方案調(diào)研一:元數(shù)據(jù)概述
- 元數(shù)據(jù)管理-解決方案調(diào)研二:元數(shù)據(jù)管理解決方案——Saas/內(nèi)部解決方案(1)
- 元數(shù)據(jù)管理-解決方案調(diào)研二:元數(shù)據(jù)管理解決方案——Saas/內(nèi)部解決方案(2)
- 元數(shù)據(jù)管理-解決方案調(diào)研二:元數(shù)據(jù)管理解決方案——Saas/內(nèi)部解決方案(3)
- 元數(shù)據(jù)管理-解決方案調(diào)研二:元數(shù)據(jù)管理解決方案——Saas/內(nèi)部解決方案(4)
- 元數(shù)據(jù)管理-解決方案調(diào)研三:元數(shù)據(jù)管理解決方案——開源解決方案
總結(jié)
以上是生活随笔為你收集整理的元数据管理、治理、系统、建设方案、范例等的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软件测试风险清单
- 下一篇: c语言程序图像抠图,Opencv使用鼠标