关于数据元、元数据、主数据、交易数据、主题数据、数据资源、大数据、数据湖等数据相关概念理解和总结
注:本文于2019年1月31日發(fā)表于微信公眾號 談數(shù)據(jù)(learning-bigdata),本公眾號將于4月21日發(fā)布一篇關(guān)于《數(shù)據(jù)治理之元數(shù)據(jù)管理》的文章,有興趣可以掃描下方二維碼關(guān)注。
在和一些客戶、同事聊數(shù)據(jù)的時候,發(fā)現(xiàn)好多人對于數(shù)據(jù)相關(guān)的一些概念、作用并不是很清楚。這里我針對自己工作接觸和學習積累的一些內(nèi)容給大家做一個總結(jié)和分享。如有偏頗,請斧正!
1、數(shù)據(jù)元
1.1 標準定義
[GB/T 18391.1-2002,定義3.14] ,用一組屬性描述定義、標識、表示和允許值的數(shù)據(jù)單元,數(shù)據(jù)元由三部分組成:對象、特性、表示。
1.2 我的理解
數(shù)據(jù)元是組成實體數(shù)據(jù)的最小單元,或稱原子數(shù)據(jù),例如,客戶聯(lián)系方式中的手機號碼,手機號為數(shù)據(jù)元,135****為數(shù)據(jù)元的值。
1.3 主要作用
數(shù)據(jù)元本身就是數(shù)據(jù),一般用來對各行業(yè)的數(shù)據(jù)進行自身規(guī)范化的一個方法或一套指導的理論,規(guī)劃好行業(yè)數(shù)據(jù)元之后,可以為行業(yè)構(gòu)建出統(tǒng)一、集成的、穩(wěn)定的數(shù)據(jù)模型奠定基礎(chǔ)。
1.4 應用范圍
數(shù)據(jù)元早期在金融、醫(yī)療等應用非常廣泛,國家相關(guān)單位也出具了對于數(shù)據(jù)元管理的一系列技術(shù)標準和行業(yè)標準,例如:GB/T 18391.1 信息技術(shù) 數(shù)據(jù)元的規(guī)范和標準化;CFDAB-T-0301.1-2014 食品藥品監(jiān)管信息基礎(chǔ)數(shù)據(jù)元……
1.5 應用舉例
CFDAB-T-0301.3-2014(食品藥品監(jiān)管信息基礎(chǔ)數(shù)據(jù)元 第3部分:藥品),舉例:
2、元數(shù)據(jù)
2.1 標準定義
Mate data,描述數(shù)據(jù)的數(shù)據(jù)或關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)。
2.2 我的理解
元數(shù)據(jù)是用來描述數(shù)據(jù)的數(shù)據(jù),讓數(shù)據(jù)更容易理解、查找、管理和使用。舉個栗子“村里有個姑娘叫小芳,長得好看又善良”這首耳熟能詳?shù)母?#xff0c;我們分析一下,姓名:小芳、性別:姑娘(女)、長相:好看、性格:善良,住址:村里。這里面:小芳是被描述的對象也就是我們所謂的實體數(shù)據(jù),而姓名、性別、長相、性格、住址就是描述小芳這個人的元數(shù)據(jù)。當然元數(shù)據(jù)也會被描述,例如上邊我舉的例子中姓名的字段長度,字段編碼、定義、字段類型、默認值等是用來“姓名”這個數(shù)據(jù)元的。所以還有個元模型的概念,這里不再展開,有興趣的同學可以在網(wǎng)上查下,MOF、CWM這兩個關(guān)于元模型的標準就明白了。
2.3 主要作用
元數(shù)據(jù)是幫助查找、存取、使用和管理信息資源的信息。
2.4 應用范圍
元數(shù)據(jù)是業(yè)界公認的數(shù)據(jù)管理中的核心要素,做好元數(shù)據(jù)管理,更容易的對數(shù)據(jù)進行檢索、定位、管理、評估。用哲學的思維理解元數(shù)據(jù)的話,元數(shù)據(jù)其實解決的是:我是誰,我在哪里,我從哪里來,我要到哪里去的問題。元數(shù)據(jù)是建設(shè)數(shù)倉的基礎(chǔ),是構(gòu)建企業(yè)數(shù)據(jù)資源全景視圖的基礎(chǔ),清晰的血緣分析、影響分析、差異分析、關(guān)聯(lián)分析、指標一致性分析等,是數(shù)據(jù)資產(chǎn)管理的重要一環(huán)。后邊有機會的話我會分享一下元數(shù)據(jù)管理,這里就不再展開了。
2.5 應用舉例
數(shù)據(jù)是物料,而元數(shù)據(jù)是倉庫里的物料卡片;
數(shù)據(jù)是文件夾,而元數(shù)據(jù)是夾子的標簽;
數(shù)據(jù)是書,元數(shù)據(jù)是圖書館中的圖書卡。
3、主數(shù)據(jù)
3.1 標準定義
主數(shù)據(jù)(Master Data)指系統(tǒng)間共享數(shù)據(jù)(例如,客戶、供應商、賬戶和組織部門相關(guān)數(shù)據(jù))。與記錄業(yè)務活動,波動較大的交易數(shù)據(jù)相比,主數(shù)據(jù)(也稱基準數(shù)據(jù))變化緩慢。主數(shù)據(jù)必須存在并加以正確維護,才能保證交易系統(tǒng)的參照完整性。——這個是百度百科的定義。
3.2 我的理解
最早接觸主數(shù)據(jù)的概念大概是09年左右,之后做過一些關(guān)于主數(shù)據(jù)的項目和解決方案。個人對主數(shù)據(jù)的理解可以用六個字概況“三大特性,四個超越“。三大特性也是主數(shù)據(jù)的主要特征,即高價值性、高共享性、相對穩(wěn)定性。四個超越:即超越業(yè)務,超越部門、超越系統(tǒng)、超越技術(shù)。請參考《主數(shù)據(jù)的3個特點、4個超越和3個二八原則》
3.3 主要作用
主數(shù)據(jù)是組織的最關(guān)鍵、最核心的數(shù)據(jù),重點用來解決異構(gòu)系統(tǒng)之間關(guān)鍵數(shù)據(jù)的不一致、不正確、不完整等問題。主數(shù)據(jù)是信息系統(tǒng)建設(shè)和大數(shù)據(jù)分析的基礎(chǔ),被認為是企業(yè)數(shù)字化轉(zhuǎn)型的基石。
3.4 應用范圍
個人認為廣義上的主數(shù)據(jù),在不同行業(yè)、不同領(lǐng)域都會有不同的定義。例如在制造型企業(yè)中的核心主數(shù)據(jù)有:物料、BOM、、設(shè)備、客戶、供應商、人員等;金融行業(yè)中客戶、客戶關(guān)系是其主數(shù)據(jù)管理的核心;在政府各部門,人口、法人、證照等是其主要的主數(shù)據(jù)。……
3.5 應用舉例
關(guān)于主數(shù)據(jù)與主數(shù)據(jù)管理,之后進行專題分享,敬請關(guān)注。
預告:主數(shù)據(jù)專題分享會對主數(shù)據(jù)的3大特性4個超越,以及主數(shù)據(jù)管理中的3個2/8原則進行詳細闡述。
4、基礎(chǔ)數(shù)據(jù)
4.1 標準定義
暫無。我在文章《主數(shù)據(jù)的前世今生,暢想未來!》一文中有過關(guān)于基礎(chǔ)數(shù)據(jù)的相關(guān)描述,請參考。
4.2 我的理解
對于基礎(chǔ)數(shù)據(jù),業(yè)界還沒有給出一個標準的定義。但在很多信息化項目中,基礎(chǔ)數(shù)據(jù)這個概念都會被提及和使用。同時,常常會有客戶對基礎(chǔ)數(shù)據(jù)和主數(shù)據(jù)概念混淆。我理解的基礎(chǔ)數(shù)據(jù)是IT領(lǐng)域的術(shù)語是伴隨信息化系統(tǒng)建設(shè)產(chǎn)生的。基礎(chǔ)數(shù)據(jù)是信息系統(tǒng)運行的基礎(chǔ),用來支撐信息系統(tǒng)運行的各種參數(shù)。而主數(shù)據(jù)是被多個系統(tǒng)共享的基礎(chǔ)數(shù)據(jù)。所以,我理解的主數(shù)據(jù)可以是基礎(chǔ)數(shù)據(jù)的一部分,但基礎(chǔ)數(shù)據(jù)絕對不等于主數(shù)據(jù)。
4.3 主要作用
基礎(chǔ)數(shù)據(jù)是支撐信息系統(tǒng)運行的各種數(shù)據(jù)和參數(shù)。
4.4 應用范圍
各類信息化系統(tǒng)的建設(shè)都離不開基礎(chǔ)數(shù)據(jù)的準備,基礎(chǔ)數(shù)據(jù)質(zhì)量的好壞,是影響信息化系統(tǒng)建設(shè)成敗的關(guān)鍵因素。
4.5 應用舉例
例如,建設(shè)一個MES(制造執(zhí)行系統(tǒng))需要準備的基礎(chǔ)數(shù)據(jù)包括:組織、部門、班組、班次、人員、崗位、機臺、設(shè)備、物料、倉庫、客商、工藝規(guī)程、BOM、工作中心、工作日歷、儀器儀表、位置、測量點、檢驗參數(shù)、檢驗項目……
5、業(yè)務數(shù)據(jù)
5.1 標準定義
業(yè)務數(shù)據(jù)是業(yè)務處理過程中或事物處理所產(chǎn)生的數(shù)據(jù),也稱交易數(shù)據(jù)。交易數(shù)據(jù)是面向應用的操作型數(shù)據(jù),有很高響應及時性要求。
5.2 我的理解
業(yè)務數(shù)據(jù)來這三個方面,一是:業(yè)務交易過程中產(chǎn)生的數(shù)據(jù),例如:計劃單、銷售單、生產(chǎn)單、采購單等,這部分數(shù)據(jù)多數(shù)人為產(chǎn)生。二是,系統(tǒng)產(chǎn)生的數(shù)據(jù),包括,硬件運行狀況、軟件運行狀況、資源消耗狀況、應用使用狀況、接口調(diào)用狀況、服務健康狀況等。三是,自動化設(shè)備所產(chǎn)生的數(shù)據(jù),IOT物聯(lián)網(wǎng)的各類設(shè)備運行數(shù)據(jù)、生產(chǎn)采集數(shù)據(jù)等等。不論來源何處,這里數(shù)據(jù)有一個共同的特點就是時效性強,數(shù)據(jù)量大。
5.3 主要作用
業(yè)務數(shù)據(jù)主要面向應用,為業(yè)務應用提供服務,例如:生產(chǎn)、銷售、采購、設(shè)備管理、系統(tǒng)管理等。
5.4 應用舉例
某企業(yè)的產(chǎn)品銷售記錄:
6、主題數(shù)據(jù)
6.1 標準定義
將信息經(jīng)過過濾識別出來,再從全局出發(fā),根據(jù)管理需求信息按照不同的分類定義出不同的主題庫,主題數(shù)據(jù)是為了面向主題的分析或加速主題應用的開發(fā)。
6.2 我的理解
主題數(shù)據(jù)顧名思義就是面向主題的數(shù)據(jù)。從這個特點上我們很容易想到有一類數(shù)據(jù)就是面向主題的數(shù)據(jù),那就是數(shù)據(jù)倉庫。與操作型數(shù)據(jù)不同,主題數(shù)據(jù)是分析型數(shù)據(jù),是按照一定的主題域進行組織,服務于決策時所關(guān)心的重點方面。一個主題數(shù)據(jù),可以是由多個主數(shù)據(jù)+交易數(shù)據(jù)組成。主題分析數(shù)據(jù)一般匯總的、不可更新的,是用于讀的數(shù)據(jù)。
6.3 主要作用
主題分析數(shù)據(jù)或數(shù)據(jù)倉庫,按照一定的業(yè)務主題域進行組織,服務于各種的數(shù)據(jù)分析或主題應用的開發(fā)。
6.4 應用范圍
主題數(shù)據(jù)與行業(yè)或領(lǐng)域有較大的關(guān)系,不同的行業(yè)關(guān)注的主題是不一樣的。即使同一行業(yè),不同企業(yè)也有不同的主題數(shù)據(jù)定義。
6.5 應用舉例
例如,某生產(chǎn)制造企業(yè)定義了12大主題數(shù)據(jù),包括:綜合服務、人力資源、財務管理、質(zhì)量管理、生產(chǎn)管理、工藝管理、庫存管理、銷售管理、采購管理、設(shè)備管理、能源管理、安全環(huán)保。
7、數(shù)據(jù)資源目錄
7.1 標準定義
目錄服務將有關(guān)現(xiàn)實世界中的事物(如人、企業(yè)、計算機等等)的信息存儲為具有描述性屬性的對象。人們可以使用該服務按名稱查找對象或者像使用黃頁一樣,可使用它們查找服務。這個定義解釋了目錄服務,所以數(shù)據(jù)資源目錄,是對數(shù)據(jù)存儲對象的描述,讓人們能夠方便、快速的找到所需要的數(shù)據(jù)。
7.2 我的理解
我所接觸的數(shù)據(jù)資源目錄的概念,源自于政務。早在02年左右國家相關(guān)部門就制定了政務資源管理的相關(guān)規(guī)范和標準。請參考:GB/T 7027-2002 信息分類編碼的基本原則和方法;GB/T 21063-2007 政務信息資源目錄體系。政務數(shù)據(jù)資源目錄是通過對政務信息資源依據(jù)規(guī)范的元數(shù)據(jù)描述,按照一定的分類方法進行排序和編碼的一組信息,用以描述各個政務信息資源的特征,以便于對政務信息資源的檢索、定位與獲取。
7.3 主要作用
政務信息資源目錄是實現(xiàn)政務信息資源共享、業(yè)務協(xié)同和數(shù)據(jù)開放的基礎(chǔ),是各政務部門之間信息共享及政務數(shù)據(jù)向社會開放的依據(jù)。
7.4 應用范圍
目前數(shù)據(jù)資源目錄系統(tǒng)的應用在各個政府部門、事業(yè)單位已經(jīng)非常普遍,尤其是在國家大數(shù)據(jù)戰(zhàn)略布局的背景下,各個地方政府也在積極通過數(shù)字化的手段,整合各類信息資源,并在不同的委辦局進行共享,目的是“讓數(shù)據(jù)多跑路,讓百姓少跑腿”!政務信息資源目錄編制工作包括對政務信息資源的分類、元數(shù)據(jù)描述、代碼規(guī)劃和目錄編制,以及相關(guān)工作的組織、流程、要求等方面的內(nèi)容。
7.5 應用舉例
你們是不是覺得數(shù)據(jù)資源目錄管理,其實就是主數(shù)據(jù)管理+元數(shù)據(jù)管理,反正我是這么認為的。只不過是管理的對象,數(shù)據(jù)的來源不一樣罷了。本質(zhì)上都是實現(xiàn)數(shù)據(jù)的查詢、定位、使用和數(shù)據(jù)的交換共享。
8、大數(shù)據(jù)
8.1 標準定義
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(快速)、Variety(多樣)、Value(低價值密度)。
8.2 我的理解
大數(shù)據(jù)已經(jīng)火了很久了。說起大數(shù)據(jù),理論派(學術(shù)派)會說4V或5V,會講啤酒和尿布、奧巴馬競選、流感預測……;技術(shù)流會說Hadoop、Spark,會用Java、R、Python……。所以我們不用去糾結(jié)什么是大數(shù)據(jù),凡是你用到的、看到的、想到的,都可納入大數(shù)據(jù)。我對大數(shù)據(jù)的理解是通過運用新技術(shù)對大量數(shù)據(jù)進行加工和處理,在某一特定業(yè)務領(lǐng)域,或某一環(huán)節(jié)、或某一點上產(chǎn)生價值,進而推動管理創(chuàng)新、技術(shù)創(chuàng)新和商業(yè)創(chuàng)新。目前大數(shù)據(jù)理論和技術(shù)都已經(jīng)相對成熟,已經(jīng)有了多個細分領(lǐng)域,如:算法研究、分析挖掘、數(shù)據(jù)治理、大數(shù)據(jù)運維、大數(shù)據(jù)開發(fā)等等。
8.3 主要作用
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。這個觀點來自百科,本人非常認同。
8.4 應用范圍
各行各業(yè)各領(lǐng)域均在準備或正在使用大數(shù)據(jù)技術(shù)嘗試業(yè)務、技術(shù)或管理上的創(chuàng)新。需要詳細了解的請找“度娘”。
9、數(shù)據(jù)湖
9.1 標準定義
數(shù)據(jù)湖Data lake,維基百科的定義:數(shù)據(jù)湖是一種在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法,它有助于以各種模式和結(jié)構(gòu)形式配置數(shù)據(jù),通常是對象塊或文件。數(shù)據(jù)湖的主要思想是對企業(yè)中的所有數(shù)據(jù)進行統(tǒng)一存儲,從原始數(shù)據(jù)(這意味著源系統(tǒng)數(shù)據(jù)的精確副本)轉(zhuǎn)換為用于報告、可視化、分析和機器學習等各種任務的轉(zhuǎn)換數(shù)據(jù)。湖中的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(行和列),半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像、音頻、視頻)從而形成一個集中式數(shù)據(jù)存儲容納所有形式的數(shù)據(jù)。
9.2 我的理解
Data lake,第一次接觸這個概念,是在2014年IBM組織的數(shù)據(jù)治理交流論壇上。當時認為數(shù)據(jù)湖就是一個概念,沒什么新意。后來一些主流大數(shù)據(jù)廠商、云計算廠商都在推一個叫數(shù)據(jù)湖的技術(shù),據(jù)說可以實現(xiàn)把不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,我在想這不就是Hadoop干的活嗎,本質(zhì)上還是換湯不換藥,還是概念上的。后來隨著數(shù)據(jù)湖技術(shù)的不斷發(fā)展,他可以更方便、更廉價的解決不同數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一存儲問題。對于這個名詞我更進一步認識到他應該是一種架構(gòu)或者說是一個解決方案。
9.3 主要作用
利用大數(shù)據(jù)技術(shù)把不同來源、不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,對支持對數(shù)據(jù)的快速加工和分析。
由于未成實踐過,所以對其作用的真正認識還停留在概念,請見諒。
9.4 應用范圍
基于云平臺的大數(shù)據(jù)架構(gòu),更適合使用數(shù)據(jù)湖的技術(shù)。
9.5 應用舉例
亞馬遜的AWS數(shù)據(jù)湖解決方案,阿里、華為等公司也推出了數(shù)據(jù)湖,有興趣的請百度。
作者:石秀峰
請手機掃描二維碼關(guān)注
總結(jié)
以上是生活随笔為你收集整理的关于数据元、元数据、主数据、交易数据、主题数据、数据资源、大数据、数据湖等数据相关概念理解和总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据治理】数据元、元数据、主数据、参考
- 下一篇: 数据元定义和应用