数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期
前言
數(shù)據(jù)生命周期 網(wǎng)上有許多版本,各行各業(yè)的、各類應(yīng)用場(chǎng)景的;下面是個(gè)人認(rèn)為比較好的兩篇介紹,望匆噴,若有推薦請(qǐng)留言,不勝感激。
1.數(shù)據(jù)全生命周期管理模型
請(qǐng)參考原創(chuàng):https://www.zhihu.com/question/393978073
特點(diǎn)是包含10多種數(shù)據(jù)生命周期模型,涉及多個(gè)行業(yè)或研究主題方向,以下給出其中一版 —?一般科學(xué)模型。
一般科學(xué)模型
通用科學(xué)模型由科學(xué)機(jī)構(gòu)提供,用于管理科學(xué)數(shù)字?jǐn)?shù)據(jù)。此模型可用于管理用于存檔或處理數(shù)據(jù)的數(shù)據(jù)收集方法。
通用科學(xué)數(shù)據(jù)模型將計(jì)劃、收集、集成和轉(zhuǎn)換、發(fā)布、發(fā)現(xiàn)和通知以及存檔或丟棄作為生命周期的六個(gè)階段。這個(gè)模型,如圖7所示,可以用數(shù)據(jù)管理計(jì)劃使用的特定技術(shù)來(lái)預(yù)測(cè)下一組數(shù)據(jù)采集。
研究結(jié)論:此模型不是整個(gè)數(shù)據(jù)生命周期的綜合模型,因?yàn)樗菍iT為數(shù)據(jù)存檔和處理而設(shè)計(jì)的。該模型不關(guān)心數(shù)據(jù)分析、數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量。
?
2.數(shù)據(jù)全周期管理
請(qǐng)參考原創(chuàng):https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA
數(shù)據(jù)的生命周期從數(shù)據(jù)規(guī)劃開(kāi)始,中間是一個(gè)包括設(shè)計(jì)、創(chuàng)建、處理、部署、應(yīng)用、監(jiān)控、存檔、銷毀這幾個(gè)階段并不斷循環(huán)的過(guò)程。企業(yè)的數(shù)據(jù)質(zhì)量管理應(yīng)貫穿數(shù)據(jù)生命周期的全過(guò)程,覆蓋數(shù)據(jù)標(biāo)準(zhǔn)的規(guī)劃設(shè)計(jì)、數(shù)據(jù)的建模、數(shù)據(jù)質(zhì)量的監(jiān)控、數(shù)據(jù)問(wèn)題診斷、數(shù)據(jù)清洗、優(yōu)化完善等方面。
(1)數(shù)據(jù)規(guī)劃。從企業(yè)戰(zhàn)略的角度不斷完善企業(yè)數(shù)據(jù)模型的規(guī)劃,把數(shù)據(jù)質(zhì)量管理融入到企業(yè)戰(zhàn)略中,建立數(shù)據(jù)治理體系,并融入企業(yè)文化中。
(2)數(shù)據(jù)設(shè)計(jì)。推動(dòng)數(shù)據(jù)標(biāo)準(zhǔn)化制定和貫徹執(zhí)行,根據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化要求統(tǒng)一建模管理,統(tǒng)一數(shù)據(jù)分類、數(shù)據(jù)編碼、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),為數(shù)據(jù)的集成、交換、共享、應(yīng)用奠定基礎(chǔ)。
(3)數(shù)據(jù)創(chuàng)建。利用數(shù)據(jù)模型保證數(shù)據(jù)結(jié)構(gòu)完整、一致,執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范數(shù)據(jù)維護(hù)過(guò)程,加入數(shù)據(jù)質(zhì)量檢查,從源頭系統(tǒng)保證數(shù)據(jù)的正確性、完整性、唯一性。
(4)數(shù)據(jù)使用。利用元數(shù)據(jù)監(jiān)控?cái)?shù)據(jù)使用;利用數(shù)據(jù)標(biāo)準(zhǔn)保證數(shù)據(jù)正確;利用數(shù)據(jù)質(zhì)量檢查加工正確。元數(shù)據(jù)提供各系統(tǒng)統(tǒng)一的數(shù)據(jù)模型進(jìn)行使用,監(jiān)控?cái)?shù)據(jù)的來(lái)源去向,提供全息的數(shù)據(jù)地圖支持;企業(yè)從技術(shù)、管理、業(yè)務(wù)三個(gè)方面進(jìn)行規(guī)范,嚴(yán)格執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn),保證數(shù)據(jù)輸入端的正確性;數(shù)據(jù)質(zhì)量提供了事前預(yù)防、事中預(yù)警、事后補(bǔ)救的三個(gè)方面措施,形成完整的數(shù)據(jù)治理體系。
3.個(gè)人版
由以上兩篇文章可見(jiàn),數(shù)據(jù)生命周期包含的內(nèi)容點(diǎn)繁多,以下 數(shù)據(jù)生命周期內(nèi)容 是個(gè)人根據(jù)自身行業(yè)及經(jīng)歷作出的總結(jié),由于個(gè)人能力及所處行業(yè)的局限性,內(nèi)容會(huì)有所偏差,也會(huì)持續(xù)優(yōu)化。
(1)數(shù)據(jù)規(guī)劃設(shè)計(jì)(前期):數(shù)據(jù)源范圍(基于業(yè)務(wù)考慮)、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)(技術(shù)+業(yè)務(wù))、數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)(工具平臺(tái)、存儲(chǔ)劃分、表及字表設(shè)計(jì)...)、應(yīng)用場(chǎng)景考慮等
(2)數(shù)據(jù)存儲(chǔ)(中期):數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)入庫(kù)等ETL過(guò)程,還包括數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)庫(kù)的性能監(jiān)控、日志管理、用戶管理、權(quán)限配置等
(3)數(shù)據(jù)應(yīng)用(后期):即時(shí)查詢、常規(guī)報(bào)表、OLAP、數(shù)據(jù)分析、數(shù)據(jù)挖掘、BI等
(4)數(shù)據(jù)歸檔(退役):個(gè)人認(rèn)為數(shù)據(jù)沒(méi)有消亡一說(shuō),更像退役,但個(gè)人更喜歡稱為數(shù)據(jù)歸檔。歸檔釋義:把文件、材料分類放進(jìn)檔案保存起來(lái)。??
總結(jié)
以上是生活随笔為你收集整理的数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: WiFi大师终极版,他来了
- 下一篇: python实现牛顿法_使用Python