数据中台离数据资产“价值变现”还有多远?
大數據、數據治理、數據湖、數據中臺……連綿不絕的數據技術和熱詞(Buzzword)讓企業信息化部門疲于跟蹤、構建和維護新的數據管理系統。都說“數據是石油”,是企業核心資產之一,那么有了這些數據管理系統,數據資產就成功實現“價值變現”(value realization)了嗎?顯然不是!
?
石油與數據的價值變現產業鏈(value chain)
?
繼續以石油做類比,如圖1所示,石油從勘探到成品銷售的價值變現過程由上游、中游、下游的多個產業環節、數以萬記的公司通過技術、運營、管理、交易等復雜的活動來完成,而不是單一的技術系統來實現。
?
圖1:石油產業價值鏈
?
石油產業價值鏈是經歷了數百年市場化演進形成的結構,是具備超強效率與變現能力的最佳實踐參考。而如今傳統的數據價值鏈實現和體系,還有著明顯的差距,如圖2所示:
?
圖2:石油/數據價值鏈對照
?
傳統數據管理體系的挑戰
?
如圖3所示,傳統的數據管控體系基本都是建立在技術棧基礎上,領先的數據管理技術棧包括:
?
圖3:傳統的數據管理技術棧和管理體系
?
數據源:數據大部分都散落在由不同的(業務)部門、不同的團隊建設和運維的應用系統中;
?
數據湖:通過數據湖、數據倉庫等技術手段,將不同系統中的數據進行集中管理;
?
數據架構治理:通過制定數據架構、數據標準、元數據管理等,降低數據交換的難度;
?
數據中臺:為數據的進一步加工處理提供平臺和通用技術功能支持,提供數據的進一步分類和聚合,屏蔽數據源訪問差異。
?
從技術上來看,當前的數據技術棧可以較好的支持數據的獲取和加工,但是任何價值的實現都不是技術獨立能夠實現的,正如同石油資產,沒有良好的管理運營體系支撐,最多只能是開采后保存在倉庫的原料,消耗了技術設施投資,而難以變成企業的業務收入,更難于構建一個有良好利潤和現金流的業務模式。
?
當前基于數據技術棧的企業數據資產管理體系存在著以下幾個方面的挑戰:
?
難以解決組織豎井壁壘的難題:在企業內部,雖然數據的所有權名義上屬于整個企業,沒有團隊或個人敢否認這個原則,但是執行上數據的開放和共享會遇到應用系統管理團隊和業務部門的隱形障礙,數據需求部門往往最終很難及時拿到自己想要的數據,最后不了了之。最終,數據中臺也好、數據湖也好,都只是搭建了一個技術系統,但缺乏高價值數據的導入和輸出。
?
另外,即使能夠解決數據的共享和輸出問題,“鐵路警察——各管一段”(這可能是數據管理實踐中的另外一種真實寫照),沒有人對數據整個處理流程負有責任,數據處理過程不能有效銜接,質量和時效性難以保證,出了問題回溯分析也非常困難;
?
?
難以解決端到端數據質量的難題:“(數據)垃圾進,垃圾出”,一個質量低劣的數據集,不如沒有數據。數據質量的治理歷來都是難題,過去數據還僅限于單個業務或職能小范圍使用,如今多數據的聯合分析需求已經擴展到企業的各個層面,低劣的數據質量危害將放大到整個企業。技術團隊沒有被賦予端到端質量管理的職能,很多時候也沒有能力和意愿進行管理;
?
不面向服務和價值變現:技術導向往往導致數據團隊關注的是技術平臺的功能和可用性,但是企業投資的目的是數據資產價值變現,這兩個目標存在著根本的差異。技術平臺是數據價值變現的基礎,但是有了平臺,并不意味著企業就同時獲得數據價值。當前企業的數據資產管理,最缺乏的是數據服務和價值變現的運營管理體系,而不是任何技術平臺的構建和運維;
?
缺乏支持數據高效流動和處理編排的工具:數據的加工處理,如同石油的采集、傳輸、煉制與成品加工,有著冗長而多變的特點,此外,還要求很高的時效性。石油產業為了提升整個產業鏈的效率,一個最重要的方法就是搭建跨公司、跨地域(甚至是全球性的)石油管道網絡。類似的,現代化制造業也是依托流水線架構實現高效的規模生產。而目前的數據技術棧,對于構建統一的數據流動管道和處理流水線,普遍還缺乏重視和實現;很多實踐還停留在基于腳本、基于定時、基于手工的管理模式,沒有實現數據的管道化高效流動和流水線化編排處理的架構和管理模式,效率低,風險大,難以支持數據的及時變現,支持業務運營和創新要求;
?
缺乏對數據流動中的安全管理:企業中私自提取數據進行非法買賣的案例屢見不鮮,給企業可能造成很大的損失,甚至導致企業破產。我國《網絡安全法》等相關法規規定了企業高管對數據泄露負有民事和刑事責任。數據不流動則沒有價值;沒有安全保護的數據流動則放大了安全風險,如何能夠實現數據的安全流動?
?
最佳的實踐是:建立企業統一的數據流動管理平臺,杜絕其他形式的數據流動(特別是臨時搭建的ftp服務用于臨時數據文件傳輸,或者開發者和用戶掌握數據存儲的訪問密碼等),所有的數據流動通道都基于企業統一的平臺管理,進行安全防護,流動操作都有留檔備查(時間、數據訪問賬戶、數據流動起始位置、數據內容、數據去向等),從而杜絕數據泄露的根源。
?
構建面向價值變現的數據資產服務管治體系
?
基于以上的討論,企業如果希望數據資產價值能夠快速高效的變現,改變傳統的技術管治導向,轉變為構建“面向價值變現的數據資產管治體系”,不再過多關注技術的先進性,而是從組織體系和管理體系上進行優化改善,才能達到事半功倍的成效,不僅最大限度的最大化技術投資回報,更能真正的推動數據資產成為企業業務的加速器,變成真正的“現代石油”。
?
如圖4所示,面向價值變現的數據資產管治體系包括以下幾個部分:
?
圖4:面向價值變現的數據資產管治體系
?
組織結構層面:設立獨立的數據管治與服務團隊,或者將職責賦予現有合適團隊。團隊應承擔以下職責:
?
● 對企業所有系統的數據擁有管治權利;
● 數據價值管理:面向企業戰略和業務經營,發掘具備重大價值的企業數據需求,整合后臺數據資源和技術資源提供數據服務,為數據實現最大化價值的目標進行日常活動;
● 數據服務運營:通過運營的方式對外輸出有價值的數據服務,具體見下文;
● 數據質量管理:通過數據架構治理和數據質量查驗等對數據的整個生命周期的質量通過設定標準、安插質量檢測點、質量考核等在數據投入產出比的約束下管理數據質量;
● 數據共享管理:具備組織權利和執行智慧,打破數據的組織壁壘、系統壁壘,推動數據在企業范圍內的無障礙流動和利用;
?
服務運營層面:為企業的利益相關者按照服務輸出的方式進行日常運營,包括:
?
● 數據服務管理:提供數據服務的服務目錄和服務處理流程,定義SLA,決定數據需求的正當性,提供友好的服務界面和用戶支持體系,自動化服務交付,解決服務中的故障、咨詢、問題,保證服務的可用性和用戶體驗;
● 數據運營管理:利用營銷方法,宣傳和推廣數據服務,建立用戶價值樣板,不斷提升數據質量、服務質量、價值實現、影響能力,甚至市場吸引力和競爭力;
?
技術平臺層面:在參考先進技術棧進行構建和完善的同時,增加以下功能和特性:
?
● 數據服務目錄:提供數據服務目錄的管理、用戶訪問和服務交付的對接;
● 數據消費場景:提供對重要數據消費場景的實現支持和試點支持;
● 數據流動管道和處理編排流水線:提供企業范圍內統一的數據流動管理、數據編排管理、豐富數據接口支持、Devops模式支持、數據活動備案審計、數據流動安全管理等;
● 數據服務即代碼(Data Service as Code):平臺服務和模塊都提供API接口,能夠被其他系統通過代碼調用獲取數據結果和數據處理編排等,嵌入到消費場景中,而不是依賴手工管理和系統操作實現。
?
數據流動管道與處理編排流水線:數據管理核心基礎設施
?
石油業的公共基礎設施之一是管道網絡(Oil Pipelines),為油品在跨地域、跨企業、跨產業內不同價值環節提供了高效、低成本、安全可控的轉移手段。同樣的,對于數據資產而言,數據管道網絡和編排流水線(Data Pipelines,以下簡稱數據流水線)也是數據管治體系的核心基礎設施之一。
?
?
數據流水線應該具體以下主要功能:
?
豐富的數據集成接口:能夠立即對已知的公共協議、系統私有接口等進行連接,及時、高效的獲取數據。包括但不限于:各種關系數據庫、nonSQL數據庫、數據倉庫與挖掘系統、數據集成與ETL工具(如Informatica、DataStage、SSIS)、ERP系統(如SAP、Oracle、Peoplesoft)、大數據平臺(Hadoop各種變種、Spark等流式系統變種)、操作系統與文件系統等;
?
強大的數據處理編排能力:數據處理分析的流程越來越長,對時效性要求越來越高,傳統基于定時觸發、基于單個操作系統、基于零散腳本連接處理過程的方式無法應對。統一的數據處理編排平臺能夠對跨系統、跨平臺的數據處理過程進行任務編排,提供基于腳本關聯關系建模、基于多種觸發模式(事件、返回結果、依賴關系、定制邏輯等)等功能支持,能夠動態向不同系統上分發處理任務,能夠預測處理;
?
支持數據處理的開發過程Devops化:為數據開發團隊以及Devops團隊提供開發、測試、發布、運維的一體化集成平臺,不需要額外的工具完成從數據過程定義、測試、發布到生產環境、變更管理和故障處理的全過程,避免了傳統模式下開發人員與運維人員在數據處理相關應用和任務上摩擦和低效;
?
Data Job As Code數據處理即代碼:提供代碼接口,開發人員、運維人員不需要手工配置系統,通過代碼直接動態生成和管理數據處理任務;
?
數據安全保護與審計:通過管理手段和技術手段禁止非流水線平臺對數據的遷移和訪問后,流水線提供數據傳輸過程的安全保證(加密傳輸),并對流動操作都有留檔備查(時間、數據訪問賬戶、數據流動起始位置、數據內容、數據去向等),為后續安全管理和合規管理提供支持;
?
多云環境支持:多云架構環境中,數據的連接、移動將是企業多云策略成功落地的重要風險;如果數據無法在多個云環境中自由、高效的流動和共享,那么每朵云都將成為難以連接的信息孤島,比企業數據中心內部的傳統信息孤島更加難以應對,因為數據沒有保存在企業可控的資產中。流水線為企業多云環境提供統一的數據管理,支持公有云(如AWS、Azure、Google Cloud、Ali Cloud等的基礎設施、數據服務與接口)、私有云(如Openstack、Kubernets、VMware等),以及PaaS、SaaS等;
?
圖5:多云架構中的數據管道架構
?
可視化支持:傳統基于腳本的數據處理難以直觀的了解當前的數據處理進度與狀態,通過日志跟蹤就是一場災難。流水線平臺應該提供數據處理任務的依賴關系模型、處理進度與狀態、預計時間、故障依賴根源分析與影響分析等圖形化展示,任何有權限的人員通過各種平臺和設備實時了解相關信息,而不是必須由系統管理員查看和報告。
?
因此,數據流水線將為企業和團隊帶來以下主要收益:
?
極大加速數據價值變現過程:任何團隊都可以通過簡單的腳本快速構建數據處理任務,快速迭代,并將數據結果快速推送給消費場景和分析人員;
?
顯著降低數據處理成本:不再需要大量技術高超、對數據處理精通的專家參與定制數據處理過程,不需要研究和編寫數據接入和處理腳本,也不需要復雜、冗長的開發運維知識轉移與交接,開發與運維成本都將顯著降低;
?
提升數據消費者滿意度:開發數據加快、可視化了解數據處理邏輯、自助圖形化跟蹤處理進度、快速的故障定位與處理,都為數據消費者提供了前所未有的體驗和效率;
?
提升數據安全保護與合規:數據流動都被加密,數據流向都被記錄留檔,數據安全審計不再是令人痛苦的挑戰。
?
數據資產價值變現,如同企業的業務運營,是一個永續不斷的過程。始終圍繞價值變現目標,通過管理和治理體系,而不是僅僅著眼于技術平臺的構建與維護,將是企業數據資產管理成功的不二法門。
?
作者丨趙成棟
總結
以上是生活随笔為你收集整理的数据中台离数据资产“价值变现”还有多远?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于 Flink 的超大规模在线实时反欺
- 下一篇: 你与那些经验老练的程序员就差一个 英文编