工业大数据分析综述:模型与算法
工業大數據分析綜述:模型與算法
王宏志,梁志宇,李建中,高宏
哈爾濱工業大學計算機科學與技術學院,黑龍江 哈爾濱 150001
?
摘要:隨著條形碼、二維碼、RFID、工業傳感器、自動控制系統、工業互聯網、ERP、CAD/CAM/CAE等信息技術在工業領域的廣泛應用,大量與工業生產活動相關的數據被實時采集并存儲到企業的信息系統中。對這些數據進行分析,有助于改進生產工藝、提高生產效率、降低生產成本,為實現智能制造奠定基礎。因此,工業大數據分析引起了工業界和學術界的廣泛關注。模型和算法是大數據分析理論和技術中的兩個核心問題。介紹了工業大數據分析的基本概念,綜述了幾種流行的工業大數據分析模型在工業大數據分析領域的應用情況以及相應求解算法方面的研究成果,并探索了大數據分析模型和算法的未來研究方向。
關鍵詞:? 工業大數據 ; 大數據分析 ; 模型 ; 算法 ; 智能制造
論文引用格式:
論文引用部分,王宏志, 梁志宇, 李建中, 高宏. 工業大數據分析綜述:模型與算法. 大數據[J], 2018, 4(5): 62-79
WANG H Z, LIANG Z Y, LI J Z, GAO H. Survey on industrial big data analysis:models and algorithms. Big Data Research[J], 2018, 4(5): 62-79
1 引言
當今時代,信息化和工業化的融合已經成為發展趨勢,《中國制造2025》指出:“新一代信息技術與制造業深度融合,正在引發影響深遠的產業變革,形成新的生產方式、產業形態、商業模式和經濟增長點”。工業大數據在兩化融合過程中起著至關重要的作用,國務院頒發的《促進大數據發展行動綱要》把發展工業大數據列為主要任務之一:“推動大數據在工業研發設計、生產制造、經營管理、市場營銷、售后服務等產品全生命周期、產業鏈全流程各環節的應用,分析感知用戶需求,提升產品附加價值,打造智能工廠。建立面向不同行業、不同環節的工業大數據資源聚合和分析應用平臺”。
工業大數據是指在工業領域中產生的大數據。隨著信息化與工業化的深度融合,信息技術滲透到了工業企業產業鏈的各個環節,條形碼、二維碼 、射頻識別(radio frequency identification, RFID)、工業傳感器、工業自動控制系統、工業互聯網 、企業資源計劃(enterprise resource planning,ERP) 、計算機輔助設計(computer aided design,CAD)、計算機輔助制造(computer aided manufacturing,CAM)、計算機輔助工程(computer aided engineering,CAE)等技術在工業企業中得到廣泛應用。互聯網、移動互聯網、物聯網等新一代信息技術在工業領域的應用使得工業企業也進入新的發展階段,其擁有的數據也日益豐富。尤其是制造企業中生產線處于高速運轉的狀態,工業設備上產生了大量數據,同時,企業中人和計算機也產生了大規模數據。
例如 ,通用電氣公司(GE)能源監測和診斷中心每天從客戶那里收集10 GB的數據[1],長虹集團有限公司等離子顯示板生產流程數據涉及超過10 000個參數,每天產生3 000萬條記錄,數據量大約為10 GB[2]。杭州西奧電梯有限公司的數字化車間監控超過500個參數,每天產生約50萬條記錄 ;浙江雅瑩服裝有限公司數字化生產線由15個子系統組成,每天產生約80萬條記錄,數據量大約為1 GB。
模型和算法是大數據分析中的兩個核心問題。大數據分析模型的研究可以分為3個層次,即描述分析、預測分析和規范分析。描述分析探索歷史數據,并描述發生了什么,這一層次包括發現數據規律的聚類[3]、相關規則挖掘[4]、模式發現[5]和描述數據規律的可視化分析[6];預測分析用于預測未來的概率和趨勢,例如基于邏輯回歸的預測[7]、基于分類器的預測[8]等;規范分析根據期望的結果、特定場景、資源以及對過去和當前事件的了解對未來的決策給出建議,例如基于模擬的復雜系統分析[9]和基于給定約束的優化解生成[10]。大數據分析算法的研究則針對特定的分析模型設計高效的算法,并研究如何提高算法的可擴展性、實時性等。工業大數據除了具有大數據的5V(volume、velocity、variety、value、veracity)特征,還具有諸多與工業生產特性密切相關的特征,如數據來源多樣、數據質量低、數據蘊含信息復雜、耦合不確定、數據實時性高等,這使得工業大數據分析的模型更加復雜多樣,對算法的實時性要求更高。
目前,工業大數據分析的理論和技術研究仍處于起步階段,分析模型以簡單的單一模型為主,分析算法主要是通用的數據挖掘算法。本文對工業大數據分析模型和算法的研究現狀進行了綜述,總結了大數據分析模型在工業場景中的應用,并對工業大數據分析模型的常用求解算法進行概述和評價。
2 大數據分析模型在工業中的應用
大數據分析模型按照輸入輸出的形式,主要有關聯規則分析、分類分析、回歸分析和聚類分析,這些分析模型以及它們的組合被應用于多種實際工業場景的分析任務中,如工藝參數優化、產量預測、故障檢測和診斷、客戶需求分析和服務類型識別等。
2.1 關聯規則分析模型
關聯規則挖掘是針對購物籃分析的問題提出的,其最初的目的是挖掘交易數據庫中不同商品間存在的關聯關系,以此得到顧客購買模式的一般性規則,并用這些規則指導商家進行合理的貨架設計。在實際工業過程中,許多場景可以用類似的關聯關系建模,用頻繁項集挖掘的方法來獲取隱含規則,用數據和知識驅動的方式來代替傳統的大量依靠經驗的決策方式。
在工藝參數優化方面,參考文獻[12]針對鋼鐵制造工藝,用關聯規則分析制造過程中的化學成分(如碳、錳、磷、硫等)的含量、出鋼溫度和軋制速度對產品機械性能的影響。
在能耗優化方面,參考文獻[13]用關聯規則分析從大量歷史能耗數據中獲取生產參數對能耗影響的規則,以此來指導企業改進生產參數,優化能耗。
在工藝標準優化方面,參考文獻[14]用關聯規則分析服裝款式、材料、年齡對實際工時與標準工時差異的影響程度,作為標準工時優化的依據;參考文獻[15]用關聯規則模型評估導致標準工時不合理的影響因素;參考文獻[16]用關聯規則挖掘模具企業計算機輔助工藝過程設計(computer aided process planning, CAPP)改模知識庫,以此指導工藝設計,提高改模工藝繼承性與重用性,促進改模工藝標準化。
在產品質量優化方面,參考文獻[17]關注裝配順序對產品質量的影響。首先用關聯規則的方法從歷史數據中抽取規則,再經人工整理,獲得簡潔有效的裝配知識和規則,以此指導產品按合理順序裝配。
在企業的供應鏈管理方面,參考文獻[18]用關聯規則分析機械制造企業外購件間的隱含關系,指導企業制定采購計劃;參考文獻[19]用關聯規則模型分析汽車企業產品價格、供應商評價、退貨原因間的關聯關系,以此建立采購決策支持系統;參考文獻[20]用關聯規則模型評價和選擇供應商。
在銷售和售后方面,參考文獻[21]從卡車制造商的角度出發,用關聯規則分析經銷商訂購車型間的關系,以進行品牌推廣;參考文獻[22]將關聯規則運用到筆記本電 腦接單制造(build to order, BTO)生產計劃中,挖掘用戶配置選擇的關聯關系,從用戶和市場需求的角度出發,為生產計劃制定提供合理依據;參考文獻[23]用關聯規則對鐘表企業物料清單中的歷史數據建模,分析不同零部件組合的產品的客戶認可度和盈利能力,以此為基礎制定營銷策略;參考文獻[24]在客戶關系管理(customer relationship management,CRM)中運用關聯規則來預測客戶行為;參考文獻[25]用關聯規則分析通信設備制造業不同地區的銷售特征,預測流失客戶。
除了直接用關聯規則模型進行工業大數據分析之外,也有研究者用關聯規則對工業數據進行預處理,再結合其他方法對處理過的數據進行分析。參考文獻[26]針對半導體制造工藝過程中機器故障由多因素引起、因素間非線性的特點,提出了RMI (root-cause machine identifier)綜合處理程序。其關鍵步驟之一就是用關聯規則模型對數據進行處理,得到候選集,再在候選集上進行計算來定位和發現機器缺陷;參考文獻[27]用關聯規則對毛毯制造數據進行降維,找到關鍵屬性集,再利用關鍵屬性集分析毛毯制造過程中出現故障的原因和相應的規則,幫助識別和定位故障。
2.2 分類模型和回歸模型
分類模型和回歸模型在基于大數據的分析、判斷和預測領域具有廣泛應用。其中,分類模型主要針對離散屬性值的判斷和預測,如故障檢測和診斷、客戶細分;而回歸模型主要針對連續屬性值,如產品的產量、銷量。決策樹模型和神經網絡模型是基于工業大數據的分類和回歸分析中的主要模型。
決策樹是一種樹形結構,用來表征對象屬性與對象值之間的映射關系。決策樹模型簡單直觀、可解釋性強,具有良好的分析和預測能力,適用于工業大數據分析的諸多場景。
在工藝參數優化方面,參考文獻[28]用分類決策樹對玻璃鍍膜工藝建模,根據給定的工藝參數預測產品質量,從而幫助企業快速確定符合預期質量產品的工藝參數。在成本優化方面,參考文獻[29]用決策樹模型篩選對工藝成本影響最大的工序,通過控制和改進篩選出的工序優化整個工藝路線的成本。在工藝標準優化方面,參考文獻[14]用決策樹模型對服裝標準工時系統的數據進行分類,再在每一類數據上進行挖掘。在產品質量監控方面,針對傳統冷軋產品缺陷檢測方法和檢測標準不一、漏洞和誤判多的問題,參考文獻[30]使用生產數據訓練二分類和多分類決策樹,挖掘出定位產品缺陷的規則,以此幫助企業快速準確地檢測出生產產品的缺陷。類似地,在故障檢測方面,參考文獻[27]用毛毯制造數據訓練決策樹模型,得到導致生產線故障的規則,并用這些規則指導相關人員識別和定位生產線故障,大大提高了毛毯生產的效率;參考文獻[31]用提升機各系統的監測數據訓練決策樹,表征故障隱患。在生產調度方面,決策樹模型受到了廣泛關注。參考文獻[32]針對離散制造業靜態Job Shop調度問題,用決策樹模型提取調度知識,優化調度方案;參考文獻[33]將工單數據和機器加工數據作為歷史數據訓練決策樹模型,并用訓練好的模型實時為工件安排機器進行加工,充分利用生產資源,實現智能化生產;參考文獻[34]用決策樹模型分析機器細小位置移動次數和機器效率對停止次數的影響規律,作為機器調整和檢測的依據,有助于車間設備、人員的調配。在采購方面,參考文獻[35]用決策樹模型挖掘汽車產品銷售數據,指導管理者制定合理的采購計劃。在客戶關系管理方面,決策樹模型被廣泛用于客戶的評價、細分和預測。參考文獻[21]用決策樹模型分析卡車經銷商的重要程度;參考文獻[36]用決策樹模型將已有客戶群按其忠誠度分類;參考文獻[37]則用決策樹模型來預測客戶的忠誠度,以幫助企業發掘潛在客戶;參考文獻[24]用決策樹模型挖掘客戶潛在服務需求,幫助企業從被動服務模式向主動服務模式進化;參考文獻[38]用決策樹模型分析客戶評價,以此衡量產品的滿意度指標;參考文獻[39]用決策樹模型預測潛在流失客戶,指導企業維系客戶關系。此外,在制造業企業的管理流程優化方面,參考文獻[40]對機械制造企業的信息管理系統建立處理部門歸屬決策樹模型,以規范管理流程,提高企業各部門間的協調運作效率。
神經網絡模型能夠表征復雜的非線性函數,在分類和回歸任務上具有良好的表現。實際工業場景(如電網、生產線和大型制造設備等)的工藝過程、產品質量、能耗、故障等均受眾多因素影響,影響過程非線性,且影響因素間往往存在著耦合關系。利用這些過程產生的大數據來訓練神經網絡,可以有效地表征這些復雜過程,實現工藝流程優化、質量管理監控、能耗優化、故障檢測預警等。
在工藝流程優化方面,參考文獻[28]對玻璃鍍膜工藝建立神經網絡模型,根據給定參數預測產品質量,再以產品質量為指標優化工藝參數;參考文獻[41]用動態神經網絡模型分析發動機缸蓋機加工參數、模具狀態和成品缸蓋燃燒室容積間的關系,指導加工參數的選取;參考文獻[42]用前饋神經網絡模型對退火數據建模,模型可根據當前數據預測退火工序的運行情況,為相關人員優化退火工藝參數提供合理依據;類似地,參考文獻[43]用前饋神經網絡來量化表征樹脂中間體和印刷電路板制造流程中各因素間的非線性因果關系,幫助相關人員更好地認識工藝流程運行情況。此外,參考文獻[15]基于神經網絡預測生產工時,分析出影響因素及其影響程度。在能耗的管理方面,參考文獻[44]對煙草企業能源管理系統運用附加動量的前饋神經網絡模型,監控和預測企業的能耗,保障企業的用能安全和效率;參考文獻[45]利用造紙業電耗、氣耗等4類能耗的重要影響因素建立神經網絡模型,預測造紙過程中各工序的能耗,為企業的能耗管理提供決策依據。在故障檢測方面,參考文獻[46]用模塊化的神經網絡模型結合故障檢測理論,實現快速定位故障部件;參考文獻[47]用神經網絡對數據倉庫的數據進行建模,分析汽車售后的潛在故障;參考文獻[48]基于模糊神經網絡實現起重車遠程實時故障診斷;參考文獻[49]用神經網絡模型解決設備實時故障數據庫中隱形故障這類不確定性較多的非線性問題。在采購和庫存管理方面,參考文獻[50]用神經網絡模型預測大型制造企業庫存安全水平;參考文獻[51]用神經網絡模型預測服裝企業庫存量;參考文獻[52]用神經網絡模型預測采購價格。這些預測結果為合理制定采購計劃、節約成本、優化庫存提供了依據。此外,參考文獻[53]用神經網絡模型對制造企業的庫存管理系統進行優化。神經網絡模型還被用作產量、銷量預測及客戶需求發現。在產量預測方面,參考文獻[54]用神經網絡模型預測攀枝花市的鋼產量;在銷量預測方面,參考文獻[55]以電機企業的月份因子及月銷售量作為輸入,建立神經網絡模型,較好地預測出了5種電機產品的銷售量;在客戶需求發現方面,參考文獻[21]從卡車制造商的角度出發,用神經網絡模型綜合分析經銷商的價值。還有研究將神經網絡模型運用到工業產品的輔助設計中,如參考文獻[56]用神經網絡模型分類并輔助檢索摩托車總體設計方案實例庫中的設計實例,有助于提高摩托車總體方案設計的效率。
此外,統計分析中的回歸模型在工業大數據分析和預測上依然發揮著重要作用。參考文獻[57]針對傳統的基于伸縮探針檢測半導體質量時,伸縮探針老化影響檢測結果的問題,用線性回歸結合分類模型對伸縮探針的狀態建模,掌握探針的老化程度,從而減少由于探針老化引起的產品質量檢測錯誤,提高檢測準確率;參考文獻[58]基于動態改進多元線性回歸模型預測航空制造企業的次年產量;參考文獻[59]用回歸模型挖掘制造業集群規模和創新能力與服務需求之間的關系;參考文獻[60]用時間序列分析模型預測流行飾品在不同區域的未來直銷趨勢。
2.3 聚類分析模型
聚類分析模型能夠將具有相似模式的對象歸納為一簇,是一種典型的無監督學習模型。聚類分析模型擅于從看似關系復雜、未知的對象中提取出內在聯系。因此,在工業大數據分析中,聚類分析模型被用于分析復雜參數間的關系、細分客戶群等。
在生產優化方面,參考文獻[61]用聚類分析模型分析煉鋼廠脫硫數據,得到不同鐵水條件下的脫硫劑消耗,以此為依據確定不同鐵水條件下脫硫效果最好的脫硫劑;參考文獻[13]用聚類分析方法從大量歷史煉鋼數據中挖掘隱含的模式,指導煉鋼企業改進生產參數,降低能耗;參考文獻[62]用多元統計技術和聚類分析方法對車間歷史數據進行分析,得到了工藝參數與能耗間的影響規律;參考文獻[63]用聚類模型挖掘釀酒數據中隱含的模式,分析結果可以幫助研究人員在釀酒過程中提前檢測出產品質量是否合格,減少由于成品質量問題帶來的損失。
在異常檢測方面,參考文獻[64]提出將聚類分析模型應用到鋼鐵等冶金行業,分析并找出生產數據中的異常點,為進一步發現生產過程中的異常狀況或根據正確數據進行更深層次的分析奠定基礎;參考文獻[65]將聚類和關聯規則模型結合,基于大量數據預測挖掘機的故障;參考文獻[47]用聚類模型分析汽車售后的潛在故障。
在供應鏈管理方面,參考文獻[50]用灰色聚類法對庫存中的產品和原材料按重要性進行劃分,指導企業控制和優化庫存;參考文獻[21]從卡車制造商的角度出發,用聚類模型對經銷商進行細分;參考文獻[36]對煙草企業客戶按價值度聚類,以此劃分營銷等級,實現精準營銷;參考文獻[66]從客戶的盈利能力角度出發,用聚類模型分析客戶盈利數據,并預測其未來盈利能力,決策者參考預測結果,將有限的資源投入能為公司創造更大利潤的客戶上。
在售后服務方面,參考文獻[24]提出用聚類模型挖掘客戶對服務的潛在需求,以客戶需求為導向制定合理的服務策略;參考文獻[39]用聚類模型結合決策樹模型預測潛在流失客戶,幫助企業及時制定挽留策略。
3 大數據分析算法研究成果
工業大數據分析算法是對特定分析模型的求解方法。如第2節所述,目前工業大數據分析中的模型以通用模型為主,因此,求解這些模型的算法主要是經典的大數據分析算法及其改進算法。本節對關聯規則分析、決策樹分析、神經網絡和聚類分析的有關算法方面的主要研究成果進行整理和評價。
3.1 關聯規則分析算法
關聯規則分析中最經典的算法是Apriori算法和FP-Growth算法。
Apriori算法[67]的理論依據是頻繁項集的兩個重要性質,即一個頻繁項集的任意子集是頻繁的,且一個非頻繁項集的任意超集是非頻繁的。其算法思想是首先掃描1次數據集,得到1-頻繁項集,然后通過迭代逐層由(k1) -頻繁項集得到k-候選集,并利用頻繁項集的性質從k-候選集中篩選k-頻繁項集,直到沒有新的頻繁項集產生為止。得益于頻繁項集的性質,Apriori算法相較于蠻力法,大大提高了計算效率,且算法的思想簡單,因而在關聯規則分析領域得到了廣泛應用。然而,經典的Apriori算法存在兩個主要問題:其一是當數據量很大時,算法會產生大量的候選集;其二是算法需要多次掃描數據集,具有很大的I/O開銷。
針對Apriori算法存在的問題,許多研究者提出了優化和改進的方法。Mannila H等人[68]提出剪枝技術,利用“一個項集是頻繁項集,當且僅當它的所有子集都是頻繁項集”這一充分必要條件,排除那些存在不頻繁子集的候選集,大大減少了候選集的規模;Park J S等人[69]提出了用散列的方法計算支持度計數 的DHP算法,以空間開銷換取時間開銷;Savasere A等人[70]提出了基于劃分的算法,將數據庫劃分為幾個不相交的子庫,分別將這些子庫讀入內存并計算頻繁項集,再將計算結果合并,這樣,每個子數據庫只需要被掃描一次,減少了I/O開銷;Mannila H等人[68]還提出了采樣的思想;Toivonen H[71]設計了基于采樣思想的算法,在數據庫中抽取樣本,并在樣本上挖掘關聯規則,再在剩余數據中驗證這些規則,基于采樣的算法大大提高了運行效率,但產生的結果不精確,存在“數據扭曲”的問題。此外,許多算法在Apriori算法的基礎上實現了并行化,如Agrawal R等人[72]提出的CD算法、DD算法、CaD算法及Park J S等人[69]提出的PDM算法。
關聯規則分析中另一個經典的算法是Han J等人[73]提出的FP-Growth算法。算法基于FP-tree的數據結構來壓縮和表示數據,因而不需要產生候選集。算法首先掃描兩次數據集,構造FP-tree,再利用分治的思想,在構造好的FP-tree上進行挖掘,不需要多次掃描數據集。當數據集中的事務在FP-tree上構成的重疊路徑較多、FP-tree的規模足夠小時,FPGrowth算法的運行效率比Apriori算法提高幾個數量級。
3.2 決策樹算法
決策樹算法的核心是在決策樹的每個節點上選取合適的測試屬性,并按照測試屬性將數據集進行劃分,以此構造出完整的決策樹。
最早的決策樹算法是ID3算法[74]。ID3算法將信息熵理論引入決策樹學習中,以信息增益為標準選取樹節點的測試屬性,遞歸地構造決策樹。ID3算法思想簡單,且具有較強的學習能力。不過,由于ID3算法偏向于處理具有較多值的屬性,因而存在過擬合的問題;算法對噪聲數據敏感,且算法只能處理離散值,無法對連續屬性值進行處理。
在ID3算法的基礎上,Quinlan J R[75]提出了C4.5算法。C4.5算法的核心是在選擇測試屬性時,用信息增益率來替代信息增益,作為屬性選取的標準。這一改進措施有效地克服了ID3算法具有的偏袒屬性問題。在決策樹構造過程中,C4.5算法引入了剪枝的策略,以此來避免數據過擬合。此外,C4.5算法增加了對連續屬性離散化的處理,使得算法能夠處理連續屬性值。然而,算法在處理連續屬性值時,需要對數據進行掃描和排序,影響了算法執行效率,且算法只能對內存中的數據進行處理。
另一個經典的決策樹算法是CART算法[76]。CART算法采用代表數據不純度的GINI系數作為屬性劃分的標準。相較于ID3算法和C4.5算法基于信息熵來計算測試屬性,基于GINI系數的方法計算更加簡便,且具有很好的近似精度。此外,CART算法用二分遞歸的方法進一步簡化了GINI系數的計算,并得到更加簡單直觀的二叉決策樹模型。CART算法采用類似C4.5算法的思想將連續屬性離散化,因而能夠處理連續屬性值。不過,當屬性類別過多、決策樹的復雜度較高時,CART算法的誤差較大。
3.3 神經網絡算法
神經網絡算法的核心是訓練神經網絡模型,即根據訓練數據調整神經網絡模型的參數,以使模型的表征能力達到最優。最早的神經網絡學習算法是感知器訓練法則[77],該法則根據訓練樣例的目標輸出和實際輸出的差值來調整網絡連接權,直至感知器能正確分類所有的訓練數據。感知器訓練法則對于線性可分的訓練數據是收斂的[78],但對于線性不可分的訓練數據來說,它將無法收斂。針對線性不可分的訓練樣本,Widrow B等人[79]提出 了最小均方誤差(least mean square,LMS)算法。算法的核心思想是最小化輸出誤差的平方和,從而得到最優近似解。算法采用梯度下降的搜索策略,迭代地沿誤差梯度的反方向更新網絡連接的權值,直至收斂到穩定狀態。Werbos P[80]提出了將LMS算法推廣到由非線性可微神經元組成的多層前饋神經網絡的思想。Rumelhart D E等人[81]提出了基于同樣思想 的誤差反向傳播(error back propagation,BP)算法。BP算法是目前應用最為廣泛、最具代表性的神經網絡學習算法。除了前饋神經網絡模型 ,徑向基函數(radical basis function,RBF)神經網絡、遞歸神經網絡、卷積神經網絡等大部分神經網絡模型也可以采用BP算法進行訓練。
盡管BP算法具有強大的學習和表征能力及廣泛的適用性,但標準的BP算法也存在著許多缺陷和不足。首先,由于算法的學習能力過于強大,其在網絡訓練中會出現“過擬合”現象;其次,算法有一定概率陷入局部極小,無法收斂于全局最優解;此外,算法的收斂速度受到學習率、初始條件等多個因素的影響,收斂速度較慢。針對BP算法存在的問題,研究者探索了許多改進方法。對于“過擬合”問題,一個經典的解決方法是將數據劃分為訓練集和測試集,當模型在測試集合上的誤差達到最小時即停止迭 代[82];Barron A R[83]提出了正則化的方法,在網絡的誤差目標函數中引入懲罰項,從而使網絡模型盡可能精簡。對于算法會收斂于局部極小的問題,采用在梯度更新法則中引入沖量、使用隨機梯度下降或使用不同初始值初始化多個網絡并最終合并訓練結果的方法,能夠在一定程度上避免陷入局部極小[82];Aarts E H等人[84]提出用模擬退火技術來優化BP算法,使算法在每一次迭代中都以一定概率接受次優解,從而跳出局部極小;此外,利用遺傳算法等進化算法[85]結合BP算法訓練神經網絡,也可以使網絡更好地接近全局最優。對于BP算法訓練速度緩慢的問題,Jacobs R A[86]提出自適應學習率的改進策略,加速神經網絡的訓練;引入沖量的策略也可以加快神經網絡的訓練速度[82]。除了BP算法外,還有諸多針對特定網絡模型的算法。有代表性的算法包 括自組織映射(self organizing map,SOM)算法[87]、自適應諧振理論(adaptive resonance theory, ART)網絡學習算法[88]和訓練受限玻爾茲曼機的CD算法[89]等。
3.4 聚類分析算法
按照算法的基本思想,聚類分析算法主要分為層次聚類、基于劃分的聚類、基于密度的聚類和基于網格的聚類。
層次聚類算法的基本思想是逐層將數據分組,形成一個層級式的樹狀圖結構的聚類結果。根據構造方式的不同,層次聚類可分為兩大類:聚合層次聚類和分解層次聚類。聚合層次聚類采用自底向上的方式,初始時將每個個體看作一類,再逐層合并這些類;分解層次聚類則采用自頂向下的方式,初始時將所有個體看作一類,再逐層分割這些類。
早期的較為著名的層次聚類算法是Zhang T等人[90]提出的BIRCH算法。算法的核心思想是建立一個聚類特征樹(CFTree),并在聚類特征樹上執行聚類分析。由于只需要掃描一次數據集,且聚類過程在內存中完成,因此BIRCH算法具有很高的執行效率。不過,BIRCH對于非凸的數據集分布簇的聚類效果并不理想。為了處理海量數據,識別不同形狀和大小的聚類,Guha S等人[91]提出了CURE算法。該算法使用數據空間中的多個點表示一個簇,以此過濾孤立點,并能更好地識別非球狀、大小不一的簇。此外,算法采用隨機抽樣和分區的策略處理大規模數據,以此獲得更好的時間效率。ROCK算法[92]是對CURE算法的改進。ROCK算法在CURE算法的基礎上,增加了對類別屬性的識別,并通過考察數據點間的相似性和共同鄰居數量來提高算法的頑健性。此外,Karypis G等人[93]提出了Chameleon算法。該算法采用動態建模技術,將數據集構造成k最近鄰圖,并用圖劃分算法將其劃分為若干子圖,再利用層次聚類算法合并這些子圖,得到聚類結果。該算法能夠處理復雜形狀的簇。
基于劃分的聚類算法首先需要指定一個聚類數目,算法通過迭代來逐步優化一個目標函數,最終得到指定數目的結果簇。K-means算法[94]是典型的基于劃分的聚類算法。算法用每個類別中全部數據的均值,即聚類中心來表示這個類。算法從k個隨機的聚類中心開始,迭代地將距離聚類中心最近的點劃分為一類,直至聚類中心點達到收斂。該算法簡潔高效,時間和空間復雜度低,因而在聚類分析中有著十分廣泛的應用。然而,K-means算法存在許多不足。K-means算法只能處理數值型的數據,且算法對非標準正態分布和非均勻樣本集的聚類效果較差;算法對初始值的設置很敏感,初始聚類中心將對聚類結果產生很大影響;此外,算法對異常值數據和離群點很敏感。
為了克服K-means算法的不足,研究者對其進行了諸多改進。針對K-means算法只能處理數值型數據的問題,Huang Z[95]提出了K-modes算法,將K-means算法擴展到能夠處理分類屬性,并將K-means算法和K-modes算法結合,提出了能夠處理混合屬性的K-Prototype算法。針對K-means算法對非標準正態分布和非均勻樣本處理效果差的問題,Girolami M[96]提出了基于核函數的算法,將數據映射到高維空間中進行處理;針對K-means算法對初始值敏感的問題,Arthur D等人[97]提出了改進的K-means++算法,算法的核心思想是選取k個相距較遠的點作為聚類中心, K-means++算法選取聚類中心的思想形象直觀,且行之有效;針對K-means算法對離群點和異常點敏感的問題,Kaufman L等人[98]提出了K-medoids算法,用簇中的某個點而非所有點的平均值來代替這個類,由此實現了對異常值的有效處理。
基于密度的聚類算法將具有一定稠密程度的數據劃分為一個簇,因而能夠處理任意形狀的聚類,并有效排除稀疏的異常點。DBSCAN算法[99]是經典的基于密度的聚類算法。DBSCAN算法從任意未標記點出發,將密度相連的最大點集作為一個簇,并用同樣的方法得到所有的聚類結果。DBSCAN算法不需要指定類別個數,能夠處理任意形狀的數據,對異常點不敏感。不過,由于DBSCAN使用全局密度閾值,若簇的密度分布不均勻,那么算法會將密度低于閾值的簇全部視為異常點。對此,Ankerst M等人[100]提出了OPTICS算法,將鄰域點按照密度大小排序,并用可視化的方法來尋找不同密度的聚類。Ert?z L等人[101]提出SNN算法,用每對點間共享鄰域的范圍代替DBSCAN算法中的密度,實現對不同密度簇的聚類。
基于網格的聚類算法將數據空間劃分為有限數目的網絡單元,計算映射到每個單元中的數據密度,并將相鄰的稠密單元合并成聚類結果。這類算法的計算時間與數據的數目和輸入順序無關,并且能夠聚類各種形狀的數據。不過,由于聚類的精度取決于劃分的網格單元數,算法聚類質量的提高是以犧牲時間為代價的。典型的基于網格的聚類算法是STING算法[102]。算法針對不同級別的分辨率,將數據空間劃分為多個層次的矩形單元,其中高層單元被劃分為多個底層單元,每個單元屬性的統計信息被預先計算和存儲,以便執行查詢操作。算法由某一層次的單元開始,逐層向下查詢滿足約束條件的單元,得到的查詢結果等價于聚類結果。STING算法便于實現并行和增量式更新,并且具有很高的執行效率。不過,算法只能得到邊界豎直或水平的聚類,聚類結果的準確性欠佳。STING+算法[103]是對STING算法的改進,用于處理動態進化的空間數據。CLIQUE算法[104]將基于密度的聚類思想與基于網格的聚類思想結合起來,因而既可以聚類任意形狀的簇,又能處理高維數據。CLIQUE算法的缺點是聚類結果對于密度閾值敏感、可能受到噪聲點的影響,且算法效率不高。此外,Sheikholeslami G等人[105]將信號處理的思想運用到聚類分析中,提出了WaveCluster算法。算法對網格數據結構進行小波變換,并將變換后的空間中的高密度區域識別為簇。該算法效率高,能處理高維數據,能夠有效處理噪聲點。
4 結束語
工業是產生大數據的重要源頭,工業大數據分析有助于提高兩化融合水平,實現智能制造,具有廣闊的應用前景,同時也面臨著諸多挑戰。目前,盡管許多研究嘗試將大數據分析方法應用于工業場景,但這些大數據分析模型相對簡單和單一;分析算法也以通用的數據挖掘算法為主。此外,由于工業過程是高度連續化的,直接將理論研究的模型和算法部署于真實工業場景中進行實驗驗證,很大程度上會影響生產線的正常運行。因此,如何平衡實驗的真實性和生產過程的穩定性,也是進行工業大數據分析的研究需要面臨的關鍵問題。未來,工業大數據分析模型和算法的研究可以從以下幾個方面展開。
● 設計表征能力更強、結構更復雜的模型來描述復雜工業過程。
● 設計或改進現有的大數據分析方法,使其能夠滿足實際工業場景對準確性、實時性、可擴展性的要求。
● 設計模擬器,依據工業生產的規律模擬實際生產過程并產生數據,為工業大數據分析模型和算法的研究提供仿真實驗環境。
The authors have declared that no competing interests exist.?
作者已聲明無競爭性利益關系。?
作者簡介
王宏志(19 7 8-),男,博士,哈爾濱工業大學計算機科學與技術學院教授,博士生導師,主要研究方向為大數據。
梁志宇(1994-),男,哈爾濱工業大學計算機科學與技術學院碩士生,主要研究方向為大數據。
李建中(1950 -),男,哈爾濱工業大學計算機科學與技術學院教授,博士生導師,主要研究方向為大數據、物聯網。
高宏,(1966-),女,博士,哈爾濱工業大學計算機科學與技術學院教授,博士生導師,主要研究方向為大數據、物聯網。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
專題導讀:大數據創新實踐
基于公開數據的特殊人群在線活動特征挖掘
基于社會化大數據的音樂文化研究進展
利用網絡數據預測企業失信行為
在線社交媒體信息冗余現象建模與實證研究
總結
以上是生活随笔為你收集整理的工业大数据分析综述:模型与算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【2017年第2期】感悟大数据——从数据
- 下一篇: UCOSIIIAPI函数接口OSTask