工业大数据的应用与实践
工業大數據的應用與實踐
袁愛進1,岳濱楠2,閆鑫2,黃健2
1. 三一集團有限公司,上海 201299
2. 上海華興數字科技有限公司,上海 201299摘要:隨著物聯網和信息物理系統時代的來臨,更多數據可以被收集和分析,工業大數據也成為行業創新和轉型的重要驅動力。與傳統互聯網大數據不同,工業大數據與工業邏輯緊密結合,詳細對比了工業大數據與互聯網大數據的區別,結合典型案例,闡述了需求驅動傳統制造業變革的過程和工業大數據的發展之路,介紹了工業大數據平臺的架構和工作原理。最后以挖掘機業務為例,展示了工業大數據平臺的應用效果,并提出共享數據和模型將會使基于數據的應用產生更大的價值。
關鍵詞:工業大數據;共享數據;平臺;智能服務
doi:10.11959/j.issn.2096-0271.2017059
論文引用格式:袁愛進, 岳濱楠, 閆鑫, 等. 工業大數據的應用與實踐[J]. 大數據, 2017, 3(6): 27-41.
YUAN A J, YUE B N, YAN X, et al. Application and practice of industrial big data[J]. Big Data Research, 2017, 3(6): 27-41.1? 引言
1.1 工業大數據的興起
隨著工業進入信息化時代,工業大數據已成為新一輪產業革命的重要動力。工業大數據以工業系統的數據收集、特征分析為基礎,對設備、裝備的質量、生產效率、用戶體驗以及產業鏈進行更有效的優化,并為未來的制造系統搭建無憂的環境[1]。無論是德國提出的“工業4.0”,還是美國定義的“工業互聯網”,大數據在其中都發揮著重要作用 。美國IBM公司認為,“工業4.0”是大數據驅動的智能制造[2,3],無數據不智能;美國通用電氣(General Electric,GE)公司表示,工業互聯網最重要的就是數據分析,未來每一家工業企業也必須是一家軟件企業,有了軟件必然會有數據。
大數據在工業領域的興起主要由以下因素決定[4]。
●設備自動化過程中,控制器產生了大量的數據,然而這些數據蘊藏的信息和價值并沒有被充分挖掘。
●傳感器技術和通信技術的發展使實時數據的獲取成本不再高昂。
●嵌入式系統、低能耗芯片、處理器、云計算等技術的興起使設備的運算能力大幅提升,具備了實時處理大數據的能力。
● 制造流程和商業活動變得越來越復雜,依靠人的經驗和分析已經無法滿足復雜的管理和協同優化的需求。
工業領域中,如果設備數據、運維數據、事件數據、輿論數據、服務數據、公司數據、市場數據和上下游產業鏈數據等能夠在統一的平臺管理,大量的數據將會使原本孤立的系統相互連接,使設備之間可以通信和交流,也使生產和服務過程變得更加透明。
1.2 工業大數據與互聯網大數據的區別
大數據正在改變著人們的生活,過去幾年,無論是健康、交通、公共安全,還是生活、購物、旅游、娛樂,都已經逐步建立起了大數據分析系統。無論是國家還是企業,對大數據的投入都數以億計。大數據的應用也從開始的互聯網領域走向了金融、醫療、環境以及工業領域,這其中應用最成功的是互聯網。互聯網以其開放、自治與共享的理念,與社會各個領域的結合,帶動了生產和社會的巨大發展和進步[5]。
工業大數據是大數據與智能制造的交叉點,工業大數據是指在工業產品全生命周期的信息化應用中產生的數據,是工業互聯網的核心,是工業智能化發展的關鍵[6]。工業大數據基于網絡互聯和大數據技術,貫穿于工業的設計、工藝、生產、管理、服務等各個環節,使工業系統具備描述、診斷、預測、決策、控制等智能化功能。
與互聯網大數據相比,工業大數據具有更強的專業性、關聯性、流程性、時序性和解析性等特點,僅僅依靠傳統的互聯網大數據分析技術已無法滿足工業大數據的分析要求[7]。兩者的區別見表1。
因此工業大數據分析并不僅僅依靠算法工具,而是更加注重邏輯清晰的分析流程和與分析流程匹配的專業技術體系。
互聯網大數據可以從數據端出發看問題,但是工業大數據則應該從價值和功能端思考。也就是說,傳統裝備企業在進行物聯網建設時,如果只是強調數據獲取的途徑、量級,沒有考慮到數據的具體分析和利用以及相應的功能與目標,很可能就會造成許多數據采集回來之后沒有用,而一些關鍵數據反而沒有采集的情況。
2 ?需求驅動變革
以上海華興數字科技有限公司(以下簡稱華興公司)為例,它是三一集團有限公司(以下簡稱三一集團)的全資子公司,為三一集團旗下工程機械裝備(如挖掘機、旋挖鉆機、裝載機、履帶起重機等)提供控制系統和信息系統。華興公司從2007年開始機器物聯的實踐,由于設備控制器終端、硬件、 語言學模型(linguistics model,LM)軟件平臺、組態軟件、控制算法以及通信、傳輸、采集都是自主研發,因此可以將任意所需數據實時上傳至大數據平臺。目前平臺上有20多萬臺三一集團設備的5 000多種參數,低頻數據上傳周期為5 min,高頻數據上傳周期為20 ms,另外還有故障數據、維保數據以及相關事件數據等。同時開發出易維訊(E-Vision,EVI)系統的網頁版與應用(App)版用于管理這些數據,并通過數據進行故障報警、故障預測、智能服務、輔助研發和信用管理等,很好地支撐了公司的核心競爭力,幫助公司實現了快速增長。
華興公司工業大數據之路發展至今(如圖1所示),每一項功能的開發都面向用戶的實際需要。
圖1 華興公司工業大數據發展歷程
從滿足用戶的需求到通過數據為公司、用戶創造價值,華興公司的工業大數據經歷了如下3個階段。
(1)集中顯示階段
工程機械的銷售特點與其他商品不同,大部分都是貸款購買,按月還款。如果某臺車不能按時還款,公司需要及時對其進行法務處理,因此需要知道每臺貸款車的地理位置。基于這樣的原因,華興公司2007年開始為三一集團每臺在外運行的設備安裝全 球定位系統(global positioning system,GPS)模塊,并通過控制器將數據實時上傳,記錄位置信息的同時,也將機器運行的信息上傳到服務器。
隨著數據慢慢積累得越來越多,為了展示數據的統計結果,華興公司2011年開始籌備開發易維訊系統。從開始面向公司內部提供機型分布、開工率、解鎖機統計等定期的報表,到后期面向客戶提供工時、油耗、周報、月報等功能,功能越來越全面,不僅為領導決策提供了支持,還提升了用戶的設備使用體驗。
(2)統計分析階段
易維訊系統的成功應用使公司重視了數據帶來的潛在價值。三一集團的設備遍布全國,設備的運行狀態某種程度即可反映國家基礎設施建設以及宏觀經濟的情況。因此將易維訊系統中的數據進行整理,提出了“三一”指數的概念,2014年開始每月定期向政府機構提供該數據。
數據積累之前,公司對產品的定義和驗證都基于有限樣本進行,有了大量的數據以后,所有已售出的三一集團機器都可作為試驗機,驗證實際運行過程中其性能是否達到了設計要求。對于新產品的開發,也可以第一時間通過分析前期產品的使用情況,從數據中提煉出下一代產品定義的相關指標。
(3)智能服務階段
隨著云計算、大數據技術的逐步發展,華興公司從2016年開始升級了服務器,將原本的物理服務器全部轉移至云上,通過數據中心操作系統(data center operating system,DCOS)統一管理,并將原來數據存儲的最快間隔時間由分鐘級提升至毫秒級,根據不同的需求,對數據進行分級存儲。
通過這些技術以及一些成熟數據挖掘算法的使用,使數據產生了更大的價值,華興公司開發出工況識別、操作手識別、故障預測、故障診斷、市場預測、配件預測等功能,為公司的決策和用戶操作體驗的提升提供了重要支持。
3 ?工業大數據平臺
華興公司的工業大數據平臺建立在公司核心產品控制系統和信息系統的基礎上,將運行設備(如挖掘機、風機、起重機、旋挖鉆機等)互聯,同時使企業數據(如生產數據、客戶相關數據、產品生命周期數據等)與運行數據互通,通過3個平臺(計算平臺、業務平臺與可視化平臺)對數據進行存儲、分析與展示,最終面向主機廠、用戶、二手機市場、配件市場等提供全方位的增值服務。平臺整體架構如圖2所示。
圖2 工業大數據平臺架構
與市場上通用的平臺即服務(platform as a service,PaaS)平臺相比,華興公司工業大數據平臺是面向工業裝備的專業化平臺,數據從設備端采集上來,經過網關、存儲、計算到客戶端的應用展示,全程都是可定制化的,滿足了不同種類設備的需求。
3.1 數據采集
數據采集部分采用LM自主組態軟件與不同頻次數據的分級處理。
遠程控制終端由控制器和顯示屏組成,是數據采集的核心部分,分布在每個工程機械設備上,負責接收來自GPS的衛星定位信息,并計算出工程機械裝備的位置、速度、方向等信息。數據通過Wi-Fi/通用分組無線服務(general packet radio service,GPRS)通信網絡傳送至數據網關,通過消息隊列進行流水化處理后,進入計算平臺。
設備的核心控制程序由華興公司自主開發的組態軟件LM編寫,因此除了GPS數據外,其他機器運行的數據(如通過控制器局域網絡(controller area network, CAN)總線采集的發動機相關數據、控制器采集的設備傳感器數據以及機器運行中的一些過程數據)都可以實時上傳。針對振動等高頻數據,在程序中提取高頻信息的特征值,轉為低頻后再上傳;針對故障數據,底層軟件記錄故障前后1 min的高頻數據,打包后在非工作時段上傳;針對設備運行數據(如主壓、轉速、排量等),采用秒級上傳;針對設備的定位等低頻數據(如位置、工時),則每15 min上傳一次,節省云平臺的存儲量。
3.2 計算平臺
計算平臺負責數據的快速存取和業務計算,由通信網關、消息隊列、數據庫、計算引擎等構成,軟件棧如圖3所示。
圖3 計算平臺軟件棧
為了滿足10萬級臺量每秒鐘數據的實時接入需求,系統根據通信流量對通信網關進行水平伸縮,數據通過Kafka消息隊列進行緩沖,再寫入NoSQL數據庫Cassandra。數據庫包括工程機械裝備詳細的裝備屬性、工況信息、報警信息、故障信息、保養信息、維修信息、位置信息、處理后的音頻/視頻信息等。
計算平臺使用高性能的Apache Spark作為計算引擎。原始數據通過Spark進行數據清洗,統計報表、故障預測、節能提示等業務需求則通過Spark SQL與Spark 機器學習庫(MLlib)進行計算,并將計算結果寫入MongoDB,供可視化平臺呈現。
平臺運維采用Mesosphere公司的數據中心操作系統(data centre operation system,DC/OS)進行管理。傳統數據中心采用服務器和虛擬機的模型,具有資源碎片化、管理和運維復雜、部署和更新過程冗長、資源利用率低等缺點。DC/OS將物理主機、虛擬主機聚合成資源池,易于擴展,支持多租戶,資源利用率高。DC/OS在統一的平臺上對微服務容器、NoSQL數據庫集群、Spark集群進行管理和調度,生產環境高度可遷移,避免了云服務商鎖定,更適用于現代化的運維管理。
3.3 業務平臺
業務平臺目前以挖掘機為主要對象,同時也接入了風機、旋控鉆機等其他三一集團裝備。結合自身對業務理解的優勢,借助云計算和數據挖掘技術,從故障維護、訂單預測以及挖掘機工況識別等方面為不同客戶提供更多智能服務,如圖4所示。
圖4 業務平臺模塊
以挖掘機業務為例,業務平臺通過對挖掘機運行數據、App事件數據、廠內試驗數據、服務訂單數據、營銷售后數據的聯通,精準打造挖掘機畫像和用戶畫像,如圖5所示。其中,挖掘機畫像由單機畫像與機群畫像組成,標簽內容包括運行信息、統計信息、保養信息、故障信息、殘值信息、健康信息等;用戶畫像由代理商、操作手、服務工程師、挖掘機老板和研發人員組成,標簽內容包括人口屬性、工作屬性、性格屬性、購物意向等。
圖5 精準畫像
工業大數據的價值主要體現在診斷和預測,見表2。利用全方位聯通的數據以及挖掘機和用戶的畫像,面向不同客戶選取與之匹配的標簽進行計算。不僅對挖掘機,也可對操作手、代理商、服務工程師等進行全方位的診斷,同時診斷結果可用在保養、銷售、二手機、庫存、意向客戶等方面的預測。
表2 健康診斷與需求預測功能
3.4 可視化平臺
可視化平臺從初始端的數據源到末端的客戶端,基于全息數據可視化構架以及分布式控制系統,實現施工現場、企業控制中心、裝配線智能車間監控以及公司會議設備等視頻源的無縫銜接,形成端到端的可視化和信息化管理。硬件設備可按需擴展,不會造成重復建設;軟件部分模塊化,數據源直接讀取計算平臺的結果數據,能夠將各種數據、視頻、音頻信號以任意大小、任意位置方式呈現在任意的顯示設備上,兼容主流瀏覽器,提供強大靈活的定制化顯示。可視化平臺拓撲如圖6所示。
圖6 可視化平臺拓撲
可視化平臺主要面向管理層和客戶提供不同的服務。面向管理層,通過數據可視化平臺對全球范圍挖掘機的主要關注指標進行透明化展示,便于公司管理層統一管理,發現運營短板;面向客戶,通過數據可視化平臺與實時運行的挖掘機數據對接展示公司的產品競爭力、高效的售后服務能力與運維能力,進一步提高企業形象、品牌價值和客戶滿意度。
服務內容包括決策、顯示和互動。
(1)決策
平臺可與公司現有視頻設備兼容,若辦公室已安裝視頻設備,不但可參加公司內部會議,還可將云平臺信息以雙流形式傳送給其他參會會場,所有外接信號均可上屏顯示,協助快速精準決策。
(2)顯示
在各個園區的監控中心可通過大屏實時獲取云平臺所有展示信息,并將信號源以雙流形式進行傳輸;可查看不同工廠的監控視頻源,也可查看各施工現場以及主機內部攝像頭的視頻源。
(3)互動
可視化信息可在多個地點的大屏幕上任意調度顯示,iPad實現各個裝備之間數據的聯動;采用瀏覽器/服務器(B /S)架構,兼容主流瀏覽器,隨時隨地訪問可視化資源,可接入不同的子系統,任意分割畫面播放,自定義模版功能,支持多屏顯示功能,每個屏幕顯示不同的數據和畫面,顯示不同三一集團裝備的實時數據畫面等,通過觸摸屏一鍵式切換大屏進行互動。
4 ?工業大數據應用
華興公司在工業大數據上的應用主要體現在集中顯示、統計分析和智能服務方面。
4.1 集中顯示
數據集中顯示的載體就是易維訊系統,該系統是華興公司為工程機械領域打造的信息控制大數據平臺。運行至今,平臺上共有設備20萬余臺,每日實時監控其運行信息(如位置、工時、轉速、主壓、油耗等),是三一重機股份有限公司旗下挖掘機、旋挖鉆機和裝載機等設備全生命周期的“眼睛”。
易維訊系統從2013年12月31日上線至今,共12次改版,其中正式版升級5次。最初版本提供4大類42項子功能,目前系統面向代理商、操作手、挖掘機老板和研發人員4類主要用戶提供99項功能,如圖7所示。除網頁版外,目前已開發出iOS版和Android版手機App,使用戶可隨時隨地掌握機器的運行狀態,極大提升了用戶的操作體驗以及對設備的滿意度。
圖7 易維訊系統功能分類
用戶可從易維訊系統中了解市場信息、設備運行信息、保養信息等,如圖8、圖9所示。挖掘機老板可以查看設備實時運行狀態,了解操作手的工作情況,如圖10所示。對未按時還貸款的客戶進行遠程鎖機,以保障設備安全,如圖11所示。對偏遠山區工作的機器進行遠程調試,以最快的速度解決客戶的問題。
4.2 統計分析
(1)“三一”指數
“三一”指數是以三一集團工程機械設備的海量工況數據為基礎,選擇一系列反映三一集團工程機械設備作業狀況的指標,進行綜合處理,用以反映工程機械經濟景氣活躍程度的綜合指數,也是借助工業大數據平臺打造出來的第一個面向國家,反映宏觀經濟和基礎設施建設的統計值。大數據和云計算技術使一臺臺三一集團裝備的運行數據實時反饋在易維訊平臺上,每揮動一鏟、行動一步,都形成數據痕跡。海量機械的應用場景和開工率等來自一線的真實情況,挖掘機、旋挖鉆機、泵車、攪拌車等全國范圍內的分布、開工率、工時的熱力圖幾乎就是一張基礎建設行業的活力圖。從2014年開始,每月定期向政府部門上報“三一”指數數據。
(2)輔助挖掘機升級
2015年西南地區某三一機型用戶集體抱怨挖掘無力,而其他區域用戶對挖掘力的評價很好。傳統的辦法是派遣多名服務工程師到各個使用者處調研,了解情況。現在采用大數據技術方法可以提高效率。由于用戶很多,逐一調查成本太大,因此通過海量數據逼近問題的原因,事先找到解決問題的辦法。
首先,通過數據統計該型號挖掘機用戶使用的檔位,如圖12所示。發現華東、中南地區7檔使用頻率最高,11檔頻率使用最少,載荷最輕。華北、西北、東北地區8檔使用頻率高,載荷較輕。西南地區9、10檔使用頻率高,11檔使用頻率也遠高于其他地區,判斷載荷最重。
圖12 檔位分布
從臺數上看,該種機型主要賣給西南和西北地區,占比最高;從主壓上看,西南地區的主壓也是最高的;從輸出功率上看,西南地區功率消耗最大,如圖13所示。因此判斷該地區用戶注重效率而非油耗,所以使用11檔頻率高。需要針對該機型的配置進行精準優化,以適應西南地區的載荷。
圖13 負載分布
華興公司根據西南地區某三一機型的載荷特點,確定“經濟模式(S模式)降油耗,重載模式(H模式)提效率”的原則,采用精準控制算法,提升H模式的匹配使其更貼近發動機的最佳經濟區,同時增大泵的流量與恒功率曲線,使其更充分吸收發動機的功率,最終達到節能增效的目的。
升級后的程序通過易維訊平臺遠程下發給各主機,用戶使用后,均表示滿意。
4.3 智能服務
(1)挖掘機工況識別
挖掘機的工作原理是將發動機的機械能轉化為液壓能,再通過復雜的液壓回路將液壓能轉化為機械能,從而實現整機作業的過程[8]。挖掘機工作的過程中環境惡劣、負載隨機、工況多變,不同工況下的匹配模式不同,設計要求不同,元件的故障概率也不同。因此精確掌握在外挖掘機的工況對研發支持(如故障診斷和產品升級)、售后服務(如二手機評估和壽命預測)都有重要的作用。傳統對工況的區分都是采用服務工程師現場確認的方式,只能針對個別機器進行少量的采樣。大數據技術的發展,使全面了解各種機器的工況變成了可能。
由于在外運行的挖掘機沒有工況標簽,無法進行訓練,因此在三一集團試驗場內對大、中、小挖掘機各2款機型進行8種常見工況的測試。為了排除操作手的影響,每個挖掘機都由多名操作手進行測試,每種工況連續測試1 h,同時為8種工況分別打上標簽,并保存測試數據,供訓練使用。由于訓練好的模型需要應用在全部在外運行的挖掘機上,因此數據采集時不能單獨加裝傳感器,全部使用量產挖掘機自帶的傳感器。記錄下來的數據按照均值類特征、波動類特征和占比類特征進行分類,歸一化后進入訓練模型。使用多種訓練模型,如感知機、邏輯分類、決策樹、神經網絡、支持向量機、隨機森林等,根據初步測試的結果選取模型進行細節調優,再用實際工況數據進行測試,最終模型工況識別的準確率在85%以上。
(2)風機健康評估
華興工業大數據平臺不僅接入了挖掘機等工程機械數據,還接入了三一集團風機的全部數據。以風機整體運行狀態為例,采用健康值對其進行評估。健康值是0~1的連續值,其原理如圖14所示,“1”表示當前運行數據分布完全與健康數據分布重合,隨著系統之間衰退,測試數據分布逐漸偏移,兩個分布的重疊部分逐漸減小,健康數值也隨之減小。根據工程經驗設定的閾值用于判斷系統是否衰退到了需要進一步進行故障診斷的級別。
圖14 健康值計算方法
利用風機從切入風速到切出風速的功率曲線,使用多工況建模的手段建立風機在健康狀態下的功率隨風速變化的分布模型。在健康狀態下,風機的風功率散點圖應分布在設計的功率曲線周圍,而當風機出現性能衰退或故障時,風機的功率分布將偏離設計的功率曲線,如圖15(a)所示。另外,通過建立功率與風速的關系模型,對比當前風速下預期發電功率和實際發電功率之間的差異,就可以評估由于風機衰退造成的發電量損失,如圖15(b)所示。通過對比維修或維護前后功率曲線的變化以及發電能力的恢復情況,就可以評估該維護或維修活動的效果。
圖15 風功率健康值計算方法
計算過程中,首先進行數據的過濾、分割和歸一化,然后基于專家知識從數 據采集與監視控制(supervisory control and data acquisition,SCADA)系統的多個變量中選取與功率曲線分析相關的參數,輸入多工況建模算法,如高斯混合模型(Gaussian mixture model,GMM)、自組織圖(selforganizing map,SOM)、神經元網絡(network of neuron,NN)等,再使用相對應的距離算法計算出評估性能差異的模型距離值,如L2、MQE和殘差分析等。
部件級別的健康管理采用的方法與上面類似,只是針對不同部件選擇的參數和健康分析建模方法有所不同。如傳動鏈的健康值計算需要振動狀態監測系統中的振動數據以及SCADA中的轉速、溫度等信息,變槳系統則需要SCADA數據中的轉速、風速、槳距角等信息。
5 結束語
工業大數據價值創造的序幕剛剛開啟,不僅在于對現有業務的優化,更在于支撐企業、行業乃至全社會的創新、轉型和發展。雖然華興公司在工業大數據的應用方面已有了一些基礎,但目前整體尚處于起步階段。一方面數據的采集還需要根據應用目標提升數量和質量,另一方面更多零部件故障預測模型還有待建立,以形成可以實用的大數據模型。工業大數據的特點是數據分析要與工業知識體系和邏輯相結合,未來的知識體系不是依靠專業人士的經驗,而是以數字的方式保存下來,需要在持續的運營中將知識積累、分享并傳承下去。同時不管三一集團的規模有多大,華興公司記錄的數據有多少,一個企業積累的數據都很難定義為“大數據”,需要有更多外部數據和應用模型的加入,在行業內形成共享,從而基于數據的應用才會更好。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
袁愛進(1959-),男,三一集團有限公司教授、副總裁,主要研究方向為智能裝備、智能控制、工業大數據。
?
岳濱楠(1984-),男,博士,上海華興數字科技有限公司算法工程師,主要研究方向為數據挖掘算法。
?
閆鑫(1981-),男,上海華興數字科技有限公司副總經理,主要研究方向為智能控制算法、工業大數據實現。
?
黃健(1972-),男,上海華興數字科技有限公司工業大數據部門經理,主要研究方向為工業大數據平臺。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的工业大数据的应用与实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32F103_USART_GPIO
- 下一篇: 数据自治开放模式下的隐私保护