企业电力征信大数据价值挖掘与应用
點擊上方藍字關注我們
企業電力征信大數據價值挖掘與應用
辛保江,?李德文,?王蘭蘭
國網山東省電力公司濰坊供電公司,山東 濰坊 261000
?摘要:針對傳統電力征信平臺穩定性不足、測試準確性低等缺點,研究設計了一個電力征信大數據平臺。使用聯機分析法對電力大數據進行分析,并將其分為用戶行為、費用細則、用戶價值與個人信用四大類。以模塊化結構為基礎,分別對數據采集模塊、數據分析模塊、用戶交互模塊進行優化設計,采用KNN算法和交叉驗證法對用電數據進行分類與決策處理,得出區域的用電規律,以此設計和調整配電方案。最后將提出的平臺與傳統電力征信平臺進行對比,實驗結果表明,提出的平臺的穩定性和準確性都有所提升,在測試過程中準確性高達98.9%。
關鍵詞:大數據模型?;?綜合型算法?;?網絡架構?;?系統測試?;?電力征信
論文引用格式:
辛保江, 李德文, 王蘭蘭. 企業電力征信大數據價值挖掘與應用[J]. 大數據, 2021, 7(6): 138-146.
XIN B J, LI D W,WANG L L. Value mining and application of big data in enterprise power credit investigation[J]. Big Data Research, 2021, 7(6): 138-146.
1 引言
中國是全世界唯一實現全民通電的國家。在電力技術高速發展的今天,電力成為一種不可或缺的資源,我國的電力消費一直秉承著“先使用后付款”的收費方式,但在用戶拖欠電費、違約用電方面沒有一個很好的解決方案。電力征信的應用能夠有效約束信用不良的用戶,減少違約用戶的產生,提升供電公司的管理水平。
參考文獻設計了基于9項指標的電力征信檢測平臺,根據用戶的用電量、用電繳費情況和違約用電記錄等指標對用戶進行分類,增強管理的條理性,但數據采集方式過于老舊,沒有正確建立用戶的用電模型。參考文獻提出利用大數據平臺對電力征信用戶數據進行提取與處理,這一做法能保證數據分析的客觀性與準確性,但系統穩定性卻沒有得到保證。本研究針對電力征信平臺進行創新,設計電力征信大數據平臺,基于平臺穩定性與測試準確性進行優化。
2 電力征信關鍵技術
2.1 用戶用電模型構建
在大數據模型技術中,聯機分析法是數據分析的主要方法,通過聯機分析法,大數據信息能夠在信息平臺上進行多維傳播。將聯機分析法運用到電力征信領域,對電力用戶的用電行為進行收集與分析,從而為電力企業供電計劃的制訂提供便利。用電數據處理流程如圖1所示。
圖1???用電數據處理流程
如圖1所示,首先對用電用戶的數據進行提取,將用戶的用電行為進行分類,然后記錄分類數據,同時對用戶數據進行行為分析,最終審核數據是否有遺漏或者錯誤的地方,如果有,則需要對數據進行再次提取。傳統記錄主要提取用戶的9類數據,本研究針對用戶的數據分析,將數據提取分為四大類、八小類,使得數據處理更加條理化,同時加快數據采集工作的開展與完成。數據分類如圖2所示。
圖2???數據分類
如圖2所示,將數據分為用戶行為、費用細則、用戶價值與個人信用四大類。此外,還可以將上述數據信息分為用電情況、費用情況、信用情況與用戶評價,為了表達方便,本文使用“用戶行為、費用細則、用戶價值、個人信用”進行說明。然后將用戶行為細分為該用戶的月度、季度、年度用電量與用電規律,將費用細則細分為用戶的繳費情況和預付費用情況;將用戶價值細分為對未來用戶用電情況的預估;針對個人信用方向,記錄用戶欠費情況與繳費及時率,通過對此4項數據的采集,能夠完整地構建用戶的用電模型,有利于對未來電力分布、企業管理和用戶信用進行綜合分析。
對以上幾類數據進行分析處理時,還可根據分析結果將用戶群分為尊貴用戶、普通用戶、風險用戶和失信用戶,針對不同的用戶提供不同的處理方式,從而加強電力企業對用戶的管理力度,對電力企業的績效分析起到促進作用。
2.2 模塊化設計優化
傳統電力征信平臺通過模塊化的設計將硬件進行組合,但這種模塊化設計在數據處理過程中出現錯誤數據的概率大于需求的概率閾值。因此,在傳統數據采集過程中需要分配人力資源對數據進行預先審查,這一過程中人力與時間耗費巨大,且人工審核的準確率也無法達到預期。因此針對這一缺點,本研究在傳統模塊化的基礎上進行優化創新,主要將數據采集模塊與網絡模塊進行交互,使得網絡數據能夠對采集到的數據進行校正;將設備管理模塊中的硬件檢測部分應用于數據分析模塊,提高數據分析的速度,提升數據分析的效率;在用戶交互模塊中,添加軟件后門進行二次開發,便于及時應對電力資源需求變化過快的情況,提高平臺穩定性。平臺模塊化設計如圖3所示。
圖3???平臺模塊化設計
本研究所提電力征信大數據平臺的創新點為針對硬件方面的模塊化創新,其中數據存儲方面為固定存儲,當網絡模塊檢測到錯誤數據時,可將數據存儲模塊中存儲的同類數據進行替代,針對替代數據進行分類。在實驗中可以明顯發現,此方法雖然會在一定程度上產生誤差,但是其對結果的影響遠沒有輸入錯誤數據造成的誤差大,因此本研究針對模塊化設計的創新具有技術優越性。
面對傳統電力征信平臺的功能與優缺點,本研究對電力征信平臺進行改進。下面將從網絡架構設計與算法設計兩部分對本研究平臺的創新點進行分析。
3 電力征信大數據平臺設計
3.1 網絡架構設計
本文設計的平臺從電力行業的基礎出發,與目前主流的大數據技術框架相吻合。針對傳統電力征信平臺計算準確性不足、電力征信大數據分析系統對數據分析的客觀性不夠的缺點,本研究通過對電力征信平臺的網絡架構進行重新整合,將數據監測與營銷分析、運行管理等作為服務層,面向電力企業提供真實的業務服務。同時在數據計算方面采用專門針對電力信息分析的綜合型算法,通過綜合型算法得到用戶的用電模型,將此模型通過數據接口應用于用電用戶(即與用電相關的企業用戶),為他們提供良好的用電方案與維護方案。本研究設計的平臺整合了電力信息接入、用戶數據分類治理、用戶模型搭建與模型分析展示等功能,集成了多圖形的可視化建模界面與二次開發接口拓展。整體網絡架構如圖4所示。
圖4???整體網絡架構
在網絡架構中,對數據進行過濾,主要通過對數據的篩選與對關聯數據的整合,將用電數據通過表格和餅狀圖等可視化視圖直觀地展現出來。數據過濾流程如圖5所示。
圖5???數據過濾流程
如圖5所示,針對源表,即用戶表的信息,可以選擇將用戶表作為基礎,將用戶表分解為區域表和設備表,區域表記錄一個區域間的用電數據,將不同區域進行對比,能夠很直觀地看出區域與區域之間的用電差距;設備表主要記錄電流與電壓的監測值,根據電流與電壓的變化預測用電量的變化趨勢,具體如圖6所示。
圖6???源表數據
3.2 算法設計
針對本研究設計的電力征信大數據平臺的網絡架構,設計一種將數據進行分類、聚類、回歸與集成的算法,即創新的綜合型算法。給定一個電力征信平臺的用戶信息集,首先使用分類聚類算法將此信息集分為用戶行為、費用細則、用戶價值與個人信用四大類,這里采用K近鄰(K-nearest neighbor,KNN)算法。K值根據電力信息數據集規模的不同進行選取,比如一個區域內的用電度數與用電時間不同,K值也會隨其不同而發生變化,在K值的選擇上使用交叉驗證的方式,即將不同的樣本集交叉起來驗證K值的方差,從而求得最佳的K值,K值交叉驗證如圖7所示。
圖7???K值交叉驗證
從圖7可以明顯看出,開始時隨著K值的增大,誤碼率由高向低變化;當K值大于10之后,誤碼率開始變大,因此要選擇樣本能承受的最佳K值。此算法除了要注意K值的選擇,還要考慮點與點之間的距離的計算,給定兩個電力信息的數據點(x1,?y1)與(x2, y2),則這兩點之間的距離ρ的計算式為:
通過式(1)可以計算出二維平面內點與點之間的距離,但電力信息一般為多維度的數據,因此需要將距離計算式拓展到多維空間,即:
確定好K值并計算完成電力數據集的點間距離后,就能進行數據的分類,將數據分為前文所述四大類后,下一步進行數據的決策,通過數據的決策將分類后的信息進行處理。這里給定電力征信數據集為D,計算電力征信數據集D的Gini系數,對于電力征信數據集中的每一個用電用戶數據A,用戶數據A中包含a1、a2、a3這3種分組數據信息,然后對這3種分組進行處理和計算,得到該電力征信數據集的不同集合。
在式(3)中,Gini系數Gini(D,A)指不同分組情況下電力征信用戶數據A在整個電力征信數據集合D中的關聯集合。假定將電力征信用戶數據分為N個類別,測試用戶數據中的任一隨機數據屬于第n類的概率為Pn,則針對電力征信用戶模型分類概率因素的Gini系數為:
在式(4)中,將給定區域內的電力征信用戶數據,按照用戶行為、費用細則、用戶價值與個人信用4個方面展開,根據Gini系數對用戶未來一段時間的用電情況進行判定,通過對電力征信大數據的分類與決策,得出區域的用電規律,通過此用電規律可以調整整個電力企業服務覆蓋區域的配電方案。通過這一設定,在區域內進行雷電預警測試,可根據配電決策樹來演化雷電預警概率,如圖8所示。
圖8???配電決策樹
4 實驗設計與分析
4.1 實驗環境及數據
本研究采用的硬件計算機操作系統為64位的Microsoft Windows 10,CPU為Inter(R)Core(TM)i7,主頻為2.59 GHz,內存為16 GB。
X市常住人口約1 035萬人,用電量在230萬kW·h左右,因此本研究采用X市中心區域的用電情況作為模擬對象。在實驗過程中將X市中心區域作為測試區域,通過對市中心區域的用電情況進行模擬,比較本研究所用電力征信大數據平臺與傳統電力征信平臺的優缺點,驗證本文平臺的技術優越性。
4.2 實驗設計與實驗過程
為了驗證本文所設計的平臺的技術優越性,設置對照實驗,先對平臺搭建進行仿真,主要通過對電力征信大數據平臺中的網絡架構與數據分類模型進行搭建,對比參考文獻提出的基于9項指標的電力征信檢測平臺(后文稱為一號平臺)與參考文獻提出的利用大數據平臺對電力征信用戶數據進行提取與處理的平臺(后文稱為二號平臺),判斷三者在電力征信大數據信息處理過程中的穩定性與準確性。
設計兩種實驗分別驗證本文平臺與一號平臺、二號平臺之間的平臺穩定性和測試準確性。針對平臺穩定性的測試,本文選用高壓測試,使用X市某地停電事故的錯誤數據集(該數據集為造成停電的各種數據信息集合,比如負荷停電、電力加載、異物等數據信息)對平臺分別進行測試,記錄平臺結果的誤碼率,對平臺測試的穩定性進行分析,同時標定應急用戶、重要用戶與普通用戶,觀察系統給出的3種用戶的處理方式是否合理。針對準確性的測試,將X市近3年的用電情況輸入平臺,再將各個平臺預測的未來一周用電情況與現實生活中的用電情況進行對比,比較三者的準確性。
4.3 實驗結果
為了測試平臺穩定性,將測試數據輸入平臺中,觀察3個平臺給出的反應。將平臺的誤碼率繪制成折線圖,如圖9所示。
圖9???平臺誤碼率測試
誤碼率在本文中是衡量平臺測試數據在一定的時間范圍內實現數據傳輸的精確性指標,計算式為:誤碼率=傳輸中的誤碼/傳輸的總碼數×100%。從圖9可看出,一號平臺誤碼率較高,在6.5 h的測試結束后,一號平臺誤碼率達到8%,這是因為一號平臺沒有將錯誤的處理結果及時篩選出來,導致錯誤的結果繼續向下游運算,進而產生更大的錯誤;二號平臺在1.1 h之前與本研究平臺誤碼率相同,但在1.1 h以后,由于算法處理等問題無法及時更新錯誤運算,導致誤碼率逐步提升,在6.5 h時達到4.5%;本文平臺由于更新了大數據分類機制,能夠有效地控制誤碼率增長,因此在6.5 h時,誤碼率仍在1.5%左右,且上升趨勢穩定,這表明本文的數據分類方法穩定性較高。
針對準確性的設計,本文將近3年的用電數據作為訓練集,先對3個平臺進行訓練,再對未來一周X市的用電情況進行,將預測結果與真實結果進行對比,引入準確性(在一定實驗條件下,經過多次測定后的平均值與真實值相符合的程度),然后對準確性進行分析。具體用電分析情況見表1。
由表1可知,本文所用方案在用電量與繳費預測中都明顯優于一號平臺與二號平臺。在用電預測中,本文平臺的預測值與真實值僅相差0.2萬kW·h;在繳費預測中,本文平臺的預測值與真實值僅相差0.02萬元,準確率高達98.9%。該數據信息是經過多次測定后計算出的平均值。
經過上述兩種實驗的分析,本文平臺在穩定性與測試準確性上都明顯優于參考文獻與參考文獻設計的平臺,驗證了本文平臺的技術優越性。
5 結束語
本文基于大數據挖掘進行數據研究,對傳統電力征信平臺進行改良。利用模塊化結構技術,構建電力征信大數據平臺的網絡架構,以此構建出用戶用電模型與區域用電模型,再通過綜合型大數據分類決策算法對用電用戶的用電情況進行分類判斷,進一步改進了傳統電力資源管理平臺穩定性不足與準確性低的缺點,同時為電力征信行業的大數據分析提供了理論與實踐依據。
作者簡介
辛保江(1986-),男,國網山東省電力公司濰坊供電公司副高級工程師,主要研究方向為電力大數據價值挖掘與應用。
李德文(1994-),男,國網山東省電力公司濰坊供電公司助理工程師,主要研究方向為電力大數據應用。
王蘭蘭(1986-),女,國網山東省電力公司濰坊供電公司經濟師,主要研究方向為電力營銷服務。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年、2019年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的企业电力征信大数据价值挖掘与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何知道自己的IP
- 下一篇: panel.setLayout(null