数据质量专项治理在政务大数据中的应用实践
根據我們的研究和實踐,我們認為數據資產管理活動可以分為三個方面:
-
第一是讓數據用起來
-
第二是讓數據用得放心
-
第三是讓數據創造價值
我們的政府部門,尤其是政府的大數據管理部門,在過去十幾年中,針對“讓數據用起來”做了很多工作,建設了諸如數據交換平臺、數據共享平臺、數據資源目錄、基礎庫、主題庫,甚至數據中臺、數據湖等這樣的項目。
但是這些項目建設完后,所建設的數據中心的建設成果還不夠理想,尤其是數據質量上,在使用過程中還是發現很多的數據質量問題。比如,一些政府部門建設了諸如領導駕駛艙這樣的系統,領導駕駛艙是利用數據為領導決策做支撐的,如果數據質量有問題,那必然帶來比較嚴重的后果。
所以我們認為,在數據要素化和數據資產化這個時間節點上,我們要讓這些數據發揮數據要素的價值,首先就是要解決數據質量問題,因此我們提出要讓數據要用的放心。第三,就是要讓數據創造價值,比如說現在耳熟能詳的一網通辦、一網通用、一網統管這些熱門的業務,也是基于數據融合共享的基礎上所打造的創新的政務服務和監管模式。
政務大數據面臨的數據質量問題
首先,源頭的數據質量不高。源頭是指政府的業務部門,質量不高的原因也是多方面,諸如人手不足、技術力量不夠,以及各個部門對數據質量的重視程度還不夠,這些因素綜合導致源頭的數據質量不高。
第二,數據質量問題的發現和修復困難。政務大數據的數據源頭多達幾十家甚至上百家,各個源頭部門的業務內容也比較復雜,而數據是與業務密切相關的,這就導致在數據進行匯聚后,大數據管理部門很難發現這些質量問題。
對修復來說,因為大數據中心是一個大數據的管理和服務部門,并不辦理業務,也不生產數據,從責權上來講,他就沒有權限來修改這些數據,到最后數據的修復工作還得依賴于各個業務部門,這里面的溝通和推進工作就會比較困難。
第三,數據項目的建設成果評價困難。因為現在的大數據項目就體量都比較大,動輒幾百萬,甚至上千萬、上億,我們要來評價這個大數據項目的建設成果,技術難度、復雜度、工作量都是比較大的,如果沒有很好的評價手段,我們就難以在項目驗收那么短的時間里去確認這個項目建設的成果到底怎么樣。而據我了解,信通院大數據技術標準推進委員會已經推出了這方面的評價標準,大家有興趣可以了解一下。
第四,難以滿足上級部門的監管要求。以互聯網加監管來說,我們國家制定了互聯網加監管的數據標準,然后省市也都沿用和完善了這些數據標準,通過及時性、正確性和覆蓋率三個指標來評價數據質量。
從我們的實踐過程中看到,早期時候,很多城市報送的數據質量都不太理想,無法滿足上級監管部門的要求。以銀行業為例,銀保監會去年對國有六大行及兩家股份制銀行因監管數據質量及報送存在違法違規行為開具了 1770 萬元的罰單。
所以,上述的這些問題導致我們的業務部門,也就是數據使用方,陷入對數據不滿意、使用不放心、共享不積極這樣的一個惡性循環。
在這樣的背景下,我們認為,如果我們要繼續深化數據的開放共享這項工作,我們可以以質量為突破,打破這個惡性循環,達到人人為我、我為人人的良性的數據開放共享狀態,也就是說如果我拿到的數據是優質的,那我也必須提供優質的數據。
著手數據質量專項治理
面對這些問題,數據質量專項治理主要從三個方面來著手:
第一、提升源頭的數據質量,因為源頭是解決數據質量問題的根本,只有源頭的質量好了,那我們才能達到一個“標本兼治”的狀態,否則只是在數據中心做清洗加工處理的話,工作量和成本投入也非常高,效果也不會很好。
第二、提升中心庫的數據質量,中心庫中存儲的是一個城市最基礎的數據,例如像法人、人口、地信息、電子證照等等,這些數據如果出現問題的話,必然影響整個城市的所有業務部門,所以中心庫的質量就顯得非常重要。
第三、形成城市級數據質量管理制度、工作流程和考核辦法,在提升源頭質量和提升中心庫質量的過程當中,形成具有本地特色的,符合本地情況的一整套的數據管理制度、工作流程和考核辦法。
從核心思路上來講,數據質量專項治理的主要工作是使用數據標準來檢驗項目建設成果是否達到預期目標,并通過相應的技術手段和管理手段來彌補項目建設過程中的不足。
從方法論上講,我們研究了一些國外框架,最后在參考國外主流框架的基礎上,主要遵從了國標《數據管理能力成熟度評估模型》(簡稱 DCMM,GB/T 36073-2018),從質量需求、質量檢查、質量分析和質量提升這些角度來解決數據質量問題。
第一步,我們針對不同主題,做數據標準的歸集和整理工作。我國針對各行各業的數據出臺了很多標準,但這些標準有一個共同問題,就是它是零散的,比如有身份證號碼編碼規范、統一社會信用代碼編碼規范,甚至人的性別都有相應的代碼集標準,例如 1 表示男,2 表示女,0 表示未知,9 表示未說明。
但對于基礎庫,例如法人人口就沒有這樣一個已經整理過的綜合的標準。所以,我們只能將這些零散的標準依據我們對業務的理解進行整理和組合,按業務和行業進行歸類,然后將這些標準從 PDF 結構化成代碼集和數據元。這是我們做質量治理工作的前提。
第二步,標準整理完后,就開始建立我們的數據質量模型和規則。數據質量模型和規則的定義,我們是按照國標《GB/T 36344-2018 信息技術數據質量評價指標》里面的五個指標來執行的,包括規范性、完整性、準確性、一致性和時效性,但國標里的可用性指標,因為執行比較困難,我們沒有采用。例如法人基礎庫,如果按大法人的概念,包括食品、藥品、特種設備等,我們建立了 300 多個模型,3000 多個規則。在規則制定過程中,最重要的是對業務的理解,也只有對業務有深刻的理解,才能去制定出法人數據相關的業務規則。如果說標準的歸集和整理是前提的話,那規則的定義就是最核心的部分。
第三步,在規則定義完成后,那我們就要采用旁路檢測的方法來執行這些規則。我們可以把數據質量的評測和修復工作比喻成要在一個行駛的火車上面來對火車的問題進行檢修,并且不能讓這個火車停下來。因為我們國家電子政務的發展速度非常迅速,根據聯合國電子政務調查報告,我國已經從 2018 年的 65 位上升到 2020 年的 45 位,尤其是疫情過后,我們的電子政務在線服務水平更是以肉眼看得見的速度快速發展。
蘇州的“蘇周到 APP”就是一個很好的例子,它作為蘇州市民服務的總入口,囊括了政務公共服務的方方面面。
所以我們怎么樣才能在這么一個快速行駛的火車上去進行檢修呢?意思就是我們原來的數據歸集、數據清洗加工、基礎庫的建設都不停,原來該怎么干還怎么干,當數據從業務部門共享到部門前置機以后,我們開一個分支出來,將數據采集到數據質量監測平臺,然后在數據質量監測平臺上面進行規則的運算。
另一個原因,如果在基礎庫上做規則運算,那么多的質量規則就直接把基礎庫給拖垮了。所以質量平臺必須是一個大數據平臺。
規則運算完以后,就會形成問題庫,然后質量平臺將這些問題以工單的形式分發到各個源頭部門,公安的問題給公安,民政的問題給民政,這也是將來做質量通報和考核的重要依據。我們發送工單的時候,也會將一些智能修復的意見推送給源頭剖門,輔助源頭部門來修復數據質量問題。業務部門修復了數據質量問題后,再將數據通過共享交換的流程共享到基礎庫主題庫里面,這樣我們就把一個質量工作進行了閉環。
第四步,數據質量本身及數據質量治理工作成果的評價。在質量治理服務的過程中,我們會周期性生成數據質量分析報告。報告的一個重點就是右上角這張圖,我們稱之為“標本線”,“標本線”可以幫助我們直觀地評價數據質量本身和數據質量治理的工作成果。圖中藍線表示當前的數據質量情況,橙線表示的是源頭數據質量情況,這兩條線之間的差值表示的是數據質量治理的工作成果,橙線逐步上升的過程,表示的是源頭部門的數據質量在不斷的提高,所以我們把橙色的線稱為“本線”,把藍色的線稱為“標線”,兩條線同時在往上走的一個過程就是一個“標本兼治”的過程。
同時,質量分析報告還包含各個源頭部門的詳細排名情況、公安提供了多少數據、修復前的正確率是多少、修復后的正確率是多少、正確率上升了多少,等等。
所以修復前的正確率體現的是公安的技術水平,也體現的是公安的質量意識,正確率的上升幅度體現的是公安在數據質量工作中的配合程度,以及公安在數據質量管理工作中的成果。
質量分析報告也包含了數據及時性評價,我們將數據及時性分成兩類:
第一類是報送結果的及時性,比如今天有一個企業注冊登記,我們不能一個月以后才共享這個企業注冊信息,如果別的部門需要依賴于這個數據來做審批或執法的話,業務就沒有辦法往下做了。
第二類是報送過程的及時性,我們在資源目錄上都會標明每一個數據資源的更新頻率,那么,報送過程及時檢查中,就是檢查是否按約定執行了數據更新動作。
綜上,數據質量專項治理的工作可以概括為標準的歸集整理、模型和規則的制定、評測任務的執行、問題的修復和質量的分析評價。
從成果上來說,我們大致歸納為以下三點:
第一、政務大數據質量雖然還不盡理想,但呈現出明顯的上升趨勢,數據質量管理的能力體系,也達到了 DCMM 的量化管理級。
第二、通過源頭數據質量的提高,大大降低了中心的治理成本,保障了數據中心的建設成效。
第三、通過數據質量的提高,打消了業務部門使用數據的顧慮,促進了數據生產、數據共享、數據使用、數據再共享的良性的數據質量文化的形成。
最后,我們認為數據質量治理工作還只是一個開頭,還有很長的路要走,還有很多方面需要國家層面,需要整個行業來共同努力,向前推進。
我概括以下三點,算是拋磚引玉。
第一、針對人口、法人、電子證照、空間地理等基礎庫,建立全國通用的數據標準。我國正在大力推進跨省通辦這樣的業務,這是很創新的,那如果要跨省通辦的話,那就是要跨省數據通用,要跨省數據互認,如果沒有一定的標準指導各做各的,那后期跨省溝通的難度就會很大。
第二、我們可以將數據質量的評價方法和質量描述作為開放共享數據的必選屬性?,F在我們在資源目錄上面標記更新周期、開放共享類型、共享方式、共享條件等等,但數據質量是數據應用的前提,應當適當說明。
第三、我們可以根據實際情況,分階段分步驟,由易到難,逐步建立數據質量的考核標準,讓大家都積極地參與到這個數據質量的工作當中來,都能夠為自己共享的數據承擔相應的責任,也能夠從別人共享的優質數據中獲益。
總結
以上是生活随笔為你收集整理的数据质量专项治理在政务大数据中的应用实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: lisp 标注螺纹孔_英制螺母标注方法及
- 下一篇: C#开发Android应用实战——使用M