数据标准化方法论思考总结
數據標準化總結
- 數據標準化總結
- 元數據管理
- 目錄式實現 VS 詞素管理
- 應對策略
- 數據字典方法論
- 基本概念
- 數據標準的小例子
- 數據標準化實施步驟
- 1. 標準化對象收集
- 2. 詞素拆分
- 3/4.標準單詞、標準用戶定義
- 基礎數據與指標數據標準化
- QA
- 指標數據標準化
- 數據治理的一些鏈接
數據標準化總結
元數據管理
目錄式實現 VS 詞素管理
目前各個公司或多或少都存在數據標準問題,英文名稱中后綴相同,中文名稱不同;英文……而且隨著業務數據的增加,數據標準問題會像滾雪球一樣越積越多。
基于越來越多的數據標準問題,目錄式管理元數據(IBM目前就是目錄式的),元數據語義層和數據模型建模的關聯很弱。
我們想,在一般的目錄式整理規范 很難將越來越多的業務數據標準化時,是否能夠找出一種新的方法將業務數據一一規范起來。
應對策略
后面,我們發現很多東西實現原子化之后就很好解決,比如,在規范業務術語時,將業務術語用詞素拆分的方式拆分成一個個原子化單詞,在一個企業中真正原子化的業務術語是非常非常少的,將這些未數不多的原子化的單詞進行定義之后,我們可以組合出更多的業務術語。
但是,要對業務數據進行統一標準化,必須制定數據字典,從標準化開始做起,在這里標準化,第一個是將業務術語分解成詞素,從詞素種提取出原子化的標準單詞。第二對單詞進行定義。一個單詞只能有一種業務含義,這樣一一對應,英文單詞也只有一個。
最后用標準單詞組成業務術語的標準名稱。
數據字典方法論
基本概念
數據標準的小例子
數據標準化實施步驟
1. 標準化對象收集
2. 詞素拆分
詞素拆分通常會在excel模板中進行,首先為參與人員講解如何判別詞素,之后由人員分工操作,分別進行詞素的拆分,之后大家分工的詞素拆分結果合并在一起進行整合,再討論和確認。
3/4.標準單詞、標準用戶定義
基礎數據與指標數據標準化
QA
- 詞素拆分的理解,詞素拆分這樣的話有個延伸問題,詞素拆分這樣的方式是中國創造的還是來源于國外?
詞素拆分的來源:詞素拆分的做法來源于東亞的做法。IBM在美國不拆,因為他們只用英語。 而且,對元數據的理念是不同的。IBM實現的效果是目錄式的,元數據語義層和數據模型建模的關聯很弱。 - 詞素拆分的出發點:
詞素拆分,以中文還是英文為基礎出發?必須以中文為基礎。 - 詞素和標準單詞的區別
詞素和標準單詞的區別是,標準單詞是從詞素中篩選出來的一部分。 詞素是標準化項目實施的開始階段的產物,但是得到標準單詞之后就不再需要了。
詞素中的一部分,變成了同義詞、也就是非標準單詞;還有一部分,可以在項目中被判定永久棄用——例如一些業務對象的舊稱謂、已經從業務上永遠過時不再使用了,就可以不再去轉變為標準單詞了。 像我以前的項目中,一些老的系統還有“傳呼號碼”這樣的業務名稱,但是客戶確認之后,說傳呼以后再也不會使用了,就可以在詞素工作階段直接拋棄了。 - 狀態在數據字典中是否可以作為一個標準用語?
狀態是一個詞素,但是不能是一個標準用語。狀態在不同的業務里代表不同的含義,比如在考試業務里,可以表示為考試狀態(考試開始,上傳,考試結束)。比如在設備使用業務里,可以表示為使用狀態(閑置,使用中,報廢)。所以在設計表及列的時候用根據業務在狀態前加業務前綴。
指標數據標準化
數據指標體系是數倉建模的核心,也是多維分析的基礎,構建一個合理完善的指標體系,數倉才能更好的提供數據、輸出價值,使用數據指導業務的效率也會成倍提高。
指標體系就是將各類數據指標維度成體系的關聯起來,按照具體的業務板塊與業務過程,將指標按照不同的特點、屬性及維度進行分類分層。
數據指標常用于指導運營決策、評價產品業務的優劣。通過對數據指標的拆解能夠得出產品、策略、運營等各方面目前存在的問題以及優點,從而得出改進的方向。
非體系化的指標通常是單點分析,無法將更多關聯指標聯系起來做全局的分析,而體系化的指標則可以將不同的指標維度綜合起來起來進行全面的分析,會更快的發現目前產品和業務流程存在的問題。
數據治理的一些鏈接
鏈接: link.
學而思網校數據指標體系建設實踐.
【袋鼠云數據】數據中臺專欄(三):數據質量分析及提升.
數據中臺的質量管理.
l數據質量檢查.
普元數據】企業數據標準規劃、建設和應用1.
普元數據企業數據質量管理核心要素和技術原則.
普元數據數據標準在管理信息系統中的應用.
普元數據數字化轉型下的自動化大數據治理.
【物流IT圈】大數據平臺下的數據治理鏈接.
總結
以上是生活随笔為你收集整理的数据标准化方法论思考总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 瑞星创始人——王新 刘旭
- 下一篇: Golang中panic与recover