机器学习从入门到精通50讲(一)-大数据平台下的数据质量管理
生活随笔
收集整理的這篇文章主要介紹了
机器学习从入门到精通50讲(一)-大数据平台下的数据质量管理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
大數據平臺的核心理念是構建于業務之上,用數據為業務創造價值。大數據平臺的搭建之初,優先滿足業務的使用需求,數據質量往往是被忽視的一環。但隨著業務的逐漸穩定,數據質量越來越被人們所重視。
千里之堤,潰于蟻穴,糟糕的數據質量往往就會帶來低效的數據開發,不準確的數據分析,最終導致錯誤的業務決策。而網易也在數據質量方面不斷探索,本文將對網易有數大數據平臺的子產品,數據質量中心的現狀及規劃方向進行簡要介紹。
1
背景
網易有數大數據平臺對數據的全生命周期都進行了管理,從數據規劃開始,到數據準備、模型的設計、模型開發采取了全鏈路的質量管理措施,數據質量中心是其數據治理的重要一環。
追根溯源,導致數據出現質量問題的原因有很多,總的來看,主要有業務、技術、管理、基礎設施四個方面:
-
業務端:業務源系統變更(源系統數據庫表結構變更、源系統環境變更)、業務端數據輸入不規范等;
-
技術端:數據開發任務中各種任務的流程、參數、配置等出錯;
-
管理端 :認知層面缺乏質量意識、缺乏有效的數據質量問題處理機制等;
-
基礎設施:物理資源不足、基礎設施不穩定等。
總結
以上是生活随笔為你收集整理的机器学习从入门到精通50讲(一)-大数据平台下的数据质量管理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术前沿资讯-Apache Flink
- 下一篇: 数据分析工具篇——数据读写