“华为杯”第17届中国研究生数学建模竞赛B题二等奖论文
賽題題目:降低汽油精制過程中的辛烷值損失模型
小組成員:于澤華,路博文,康凱
本論文部分源碼:GitHub - Zehua-Yu/2020Graduate-mathematical-modeling-B
本論文核心方法出自本人的文章:Z. Yu, X. Zheng, Z. Yang, B. Lu, X. Li and M. Fu, "Interaction-Temporal GCN: A Hybrid Deep Framework For Covid-19 Pandemic Analysis," in IEEE Open Journal of Engineering in Medicine and Biology, vol. 2, pp. 97-103, 2021, doi: 10.1109/OJEMB.2021.3063890.
PS:由于部分原因,并沒有寫出全部的論文內容及實驗結果。
摘要
汽油是小型汽車的主要燃料,但其燃燒產生的尾氣排放對大氣環境有著重要的影響,將汽油清潔化已是迫在眉睫,但同時也要保證其辛烷值的含量。本文運用機器學習的方法針對處理辛烷值(RON)損失預測模型的問題展開研究。將工廠的原始樣本數據進行預處理,分析在精制處理汽油的工程中辛烷值下降的原因,然后將全部的操作變量進行兩種不同方法(隨機森林和ARMA)的降維處理,對處理后留存下的主要變量進行建模,利用BP(Back Propagation)神經網絡進行模型訓練,經過驗證和測試,利用隨機森林和ARMA降維結果作為可變主要變量的產品RON預測準確率分別為:99.6%和99.2%。隨即又針對模型輸出對主要操作變量進行優化,并將輸出結果進行可視化處理。最終,兩個方法對應的最高優化RON損失降幅分別為63.21%和65.88%,均達到題目提出的超過30%的標準。
問題一:由于原始數據的采集過程中,可能有部分檢測位點存在問題,部分檢測時間點的數據出現異常,此外原始數據中還存在部分檢測時間點數據精度不達標的情況,對于該部分也應予以剔除。本文依“樣本確定方法”(附件二)對285號和313號數據樣本進行預處理,在原始數據樣本(附件三“285號和313號樣本原始數據)的基礎上進行數據篩選與處理。
問題二:工程技術應用中經常使用先對數據進行降維,然后建模的方法,這有利于忽略次要因素,發現并分析影響模型的主要變量與因素。本文同時為了降低后續數據處理過程中所消耗的計算資源,采用隨機森林(RF)和自回歸滑動平均模型(ARMA)兩種方法,對354個操作變量進行篩選,使得篩選出的操作變量最具代表性,與目標對象的相關程度高。
問題三:針對本題目所給的場景與數據特點,本文基于BP神經網絡結構針對辛烷值(RON)和硫含量雙輸出的預測模型進行設計。該神經網絡具有良好的非線性映射和容錯能力,十分契合數據集中的數據特點。此外,本文選擇了相對合適的激活函數,以應對梯度消失和過擬合問題。
問題四:本文使用問題三中訓練所得模型進行參數優化,優化目標是維持產品硫含量不大于5μg/g,并使產品RON的損失降幅超過30%。對于133號樣本,我們使用步進參數優化方法,優化出使得RON損失降福最大約為65%的主要變量參數組合。
問題五:對133號樣本優化過程與結果的可視化,并進行優化效果的具體分析,給出優化后產品RON的損失降幅,進而對模型性能進行評估。
關鍵詞:特征降維;隨機森林;自回歸滑動平均模型;BP 神經網絡
1.問題重述
1.1 問題背景
隨著社會的發展,汽油燃料需求日益增加,燃燒其產生的尾氣污染大氣環境的問題也 日漸突顯。辛烷值是反映汽油燃燒性能的重要指標,但由于現有脫硫技術的原因,在對汽 油進行處理時,都會降低其辛烷值,進而造成巨大的損失。為了汽油得到最優的利用,本 文在建模過程中研究如何滿足操作變量的多樣性、對原料分析的高要求及過程優化響應的 及時性。通過數據挖掘技術來建立汽油辛烷值(RON)損失的預測模型,按照每個樣本約 束的優化操作的框架下,研究如何在滿足汽油脫硫效果的同時(硫含量不大于 5μg/g), 實現降低汽油辛烷值損失在 30%以上。
1.2 需要解決的問題
在本文中,我們根據附件一的樣本預處理結果數據、附件二的樣本確定方法和附件三的兩個原始數據樣本進行建立辛烷值(RON)損失預測模型,并按要求完成如下問題:
(1) ?參考附件一的工業數據的預處理結果,依照附件二中的樣本確定方法對附件三中的原始樣本數據進行預處理并將處理結果分別加入到附件一中的相應位置,供下述條件使用。
(2) ?辛烷值的測量是測量時刻前兩小時內操作變量的綜合效果,所以要求預處理中取操作變量的平均值與辛烷值的測量值對應。
(3) ?在建立降低辛烷值損失模型的過程中,要從367個操作變量中發現并分析影響模型的主要變量和因素,要求篩選出的建模主要變量為相對獨立、對輸出結果影響較大的操 作變量。按題目要求,從 354 個操作變量中選擇出 27 個特征變量,加上原料的辛烷值 和硫含量共 29 個參數類別,作為該模型的主要操作變量和因素。
(4) ?建立RON損失預測模型,采用附件中的樣本和選擇出的主要變量和因素,通過回歸或 神經網絡等技術,對問題所屬的辛烷值損失預測模型進行建立,并用附件一數據對模 型進行驗證。
(5) ?要求在保證產品硫含量不大于5μg/g的前提下,利用上述模型以分析出的數據樣本中, 獲得 RON 損失降幅大于 30%的樣本中對應的主要變量優化的操作條件。
(6) ?要求對133號樣本進行可視化展示,以圖形展示其主要操作變量優化調整過程中對應的RON和硫含量的變化軌跡。
2. 模型假設
(1) ?由附件一325個樣本數據可見,各個樣本的原料性質數據均有不同,故對不同樣本進 行相同的相關操作變量數值調整時,產品中硫含量和辛烷值 RON 均不同。選定樣本的 7 個原料性質數據作為輸入,且在后續問題中同一個樣本的原料性質均保持不變,即 7 個原料性質不可作為優化產品操作方案的因素和變量;
(2) ?由于附件一中325個樣本的操作變量數眾多,其中包含一些與目標輸出(產品硫含量 和產品辛烷值 RON)相關度較低的操作變量。為了降低模型計算量,提高效率,本文 擬對354個操作變量進行特征選擇,從中篩選出與目標輸出相關程度最大的10個操作 位作為整個預測模型的輸入變量;
(3) ?由上述1)和2)中進行的假設,本文中所設計的產品辛烷值預測模型的輸入為樣本的 7 個原料性質和 10 個操作為變量;
(4) ?只考慮附件一中所給的樣本數據;
(5) ?在特征提取部分擬引入兩類方法,在建模部分擬引入BP網絡,在優化操作位部分擬使
用步進優化參數法。 根據以上假設,本題目的全部方法流程圖如圖2-1所示:
圖2-1 整體框架流程圖
3?問題一: 對 285 號和 313 號樣本的原始數據進行處理?
3.1?問題分析
由于原始數據的采集過程中,可能有部分檢測位點存在問題,在部分檢測時間點的數 據出現異常,此外原始數據中還存在部分檢測時間點數據精度不達標的情況,對于該部分 也應予以剔除。附件一中的樣本數據應該均符合相關要求,能夠保證操作變量與產品輸出 指標存在合理的相關性,從而使后續數據分析和相關建模工作更具有實際意義。
數據來源:原始數據采集來源于中石化高橋石化實時數據庫(霍尼韋爾 PHD)及 LIMS 實驗數據庫。
問題要求:利用附件三所給的 285 號和 313 號樣本的原始數據,依“樣本確定方法” (附件二)對 285 號和 313 號數據樣本進行預處理,并用處理后的數據對附件一對應樣本 編號的數據進行更新。根據問題一要求對 285 號以及 313 號樣本原始數據進行數據處理(原 始數據見附件三)。由附件二中關于數據整定的要求,對于 285 號和 313 號樣本的原始數 據各個時間點的點位,若操作變量只含有部分時間點的位點,其殘缺數據較多,無法補充, 則將此類位點刪除;對于部分操作變量數據為空值的位點,空值處用其前后兩個小時數據 的平均值代替;依據附件四中對各個原始數據的操作變量操作范圍,采用最大最小的限幅 方法剔除一部分不在此范圍的樣本;根據拉依達準則(3σ準則)去除異常值。
目標:將附件三中 285 號和 313 號樣本原始數據中不符合附件二中相關要求的參數進 行刪除、代替或剔除異常值等操作,再對通過上述數據整定后的原始數據求其各個操作變 量的均值,并對附件一對應樣本編號的數據進行更新。
數據預處理流程圖如圖3-1所示:
圖3-1 數據預處理流程圖
3.2?數據提取?
導入附件三中 285 號和 313 號樣本每個測試時間點各個操作變量的對應數值。原始數據中,大部分變量數據正常,但由附件二中可知,每套裝置的數據均有部分位點存在問題, 需要對原始數據進行處理后才可以使用。
3.3?數據處理
(1) ?刪除285號和313號樣本中殘缺數據較多、無法進行補充的的操作變量(刪除該位點)。 對 285 號和 313 號樣本原始數據進行篩選,其中有若干操作變量在所有時間節點均無 數據,故將此類操作位點所有數值置零,從而表示刪除該類操作位點。
(2) ?對于部分操作變量數據為空值的位點,空值處用其前后兩個小時數據的平均值代替。 對 285 號和 313 號樣本原始數據進行篩選,均無滿足該條件的數據,故不予處理。
(3) ?依據附件四中對原始數據的操作變量操作范圍,采用最大最小的限幅方法,從285號 和 313 號樣本原始數據中剔除一部分不在此范圍的樣本。
(4) ?根據拉依達準則(3σ準則)去除異常值。分別對285號和313號樣本原始數據各個操 作變量進行等精度測量,對每個操作位點在 40 個時間節點得到 x1,x2,......,x40, 算出其算術平均值 x。其次根據對應操作變量的算數平均值,求出剩余誤差 vi=xi-x (i=1,2,...,40)。再對每個操作變量按貝塞爾公式求出其對應的標準誤差σ,貝塞爾公式如(1)所示:
若某個操作變量在b時間節點的測量值的剩余誤差(1<=b<=n),滿足,則認為是含有粗大誤差值的壞值,285號樣本和313號樣本的原始數據中,各個操作變量均有部分時間節點的數據滿足|vb|=|xb-x|>3σ,將該部分壞值剔除。
完成上述4步主要操作后,對285號和313號樣本原始數據中各個操作變量求均值, 并將處理后的數據對附件一進行更新。
3.4 數據對比
由完成處理的數據,可以發現285號和313號樣本數據與附件一中相同,說明附件一中所給的285號與313號樣本操作變量數據均無壞值,符合工業生產中的觀測要求。可以作為后續數據挖掘和分析工作的基礎,能夠作為參考樣本反應操作變量和產品輸出指標的關系。
4 問題二: 選取主要特征操作變量?
4.1 問題分析
汽油的實際精制生產工序十分繁瑣,可操作位點繁多,而不同操作位點之間可能存在著某些相關性質,例如裝置內部溫度的變化可能會導致裝置內部壓力的變化。同時也存在 一些與汽油成品質量相關性不大的常規操作變量。為了降低后續數據處理過程中所消耗的計算資源,需要對354個操作變量進行篩選,使得篩選出的操作變量最具代表性,與目標輸出指標的相關程度高。
數據來源:原始數據采集來源于中石化高橋石化實時數據庫(霍尼韋爾 PHD)及 LIMS 實驗數據庫。
問題要求:附件一中提供的 325 個樣本數據中,包括 7 個原料性質、2 個待生吸附劑 性質、2 個再生吸附劑性質、2 個產品性質等變量以及另外 354 個操作變量(共計 367 個 變量)。對上述 367 個變量進行降維,選出不超過 30 個特征變量對模型進行建模。要求 選擇具有代表性、獨立性。
目標:由于附件一中的 325 個樣本的原料性質均有差異,故本文將樣本的 7 個原料性質作為模型輸入的一部分,且對單個樣本進行分析時原料性質不可進行操作更改。此外,本文將對 367 個操作變量進行特征選擇,從中選擇 10 個對模型輸出影響較大的操作變量作為降維后的特征。綜上所述,本文對上述 367 個變量(其中預先確定選擇 7 個原料屬性變量)選擇合適的特征降維方法進行降維后,得到共 17 個特征。
4.2?特征降維簡述?
附件一中提供的325個樣本數據中,包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等變量以及另外354個操作變量(共計367個變量)。若將所有變量作為輸入建立降低辛烷值損失模型,一方面會需要大量的計算資源,另一方面367個變量中存在一些與模型輸出值相關性較低的變量,我們在建模前需要對這些變量進行篩選,發現并分析影響模型的主要變量與因素。使用降維后的操作變量,使得在工程應用上的相關操作更加方便。需要注意的是,上述的367個變量均對應獨立的相關操作,題目要求改動和提取的也是原有操作位,故本文在進行特征降維時,不使用將原始特征映射到其他特征空間再進行主成分分析的方法,而是在上述367個變量中選擇7個原料性質和10個可操作變量,作為影響模型最主要的可操作變量和單個樣本因素。
常見特征降維方法與適用性分析:關于特征降維,目前有許多常見的方法PCA[[i]](Principal Component Analysis)、LDA[[ii]](Linear discriminant analysis)?、LLE[[iii]](Locally linear embedding)、ISOMAP[[iv]]、tSNE[[v]]、Perason相關系數[[vi]]和隨機森林[[vii]]等等。
Perason相關系數可作為衡量兩個特征向量之間線性相關程度的系數。設X, Y為兩個變量,為變量X和Y之間的perason相關系數,也就是兩個變量的協方差與兩個變量的標準差之積的比值,其范圍區間為[-1, 1]。其絕對值越大則兩變量之間的線性相關程度越強,則兩變量之間無線性相關性。使用perason相關系數可以很好的對與目標變量Y具有線性相關性的變量進行降維處理,但只能表示二者之間不存在線性相關性,不能確認其之間沒有非線性相關性。故對于附件一中325個樣本數據中的操作變量并不適用。
4.3 隨機森林(Random Forests)
隨機森林[[i]][[ii]]對于回歸和分類問題有很好的效果,隨機森林還有一個重要特征:它能夠計算單個特征變量在整個回歸或分類過程中的的重要性指標(Variable Importance Measure),本文利用隨機森林的這一特性對附件一中的354個操作變量進行特征提取,篩選出重要性指標最大的10個操作變量作為新特征。
記VIM為操作變量的重要性指標,本文選擇基尼指數(Gini importance)作為354個操作變量的VIM值。作者在[[iii]]中計算傳感器間的Gini importance作為傳感器的貢獻度量,從而實現后續對傳感器優化的工作。本文利用sklearn構建隨機森林的所有決策樹中,輸入均為354個操作變量,每個決策樹對各個操作變量的Gini importance 進行計算,并根據各個操作變量的Gini importance從大到小進行排列。本文取354個操作變量中,Gini importance最大的前10個作為主要特征操作變量。特征選擇結果如下表 4-1所示:
表4-1
| 操作變量名稱 | VIM/Gini importance |
| 加熱爐主火嘴瓦斯入口壓力 | 0.030 |
| D101原料緩沖罐壓力 | 0.029 |
| P-101B入口過濾器差壓 | 0.026 |
| 精制汽油出裝置硫含量 | 0.019 |
| 精制汽油出裝置溫度 | 0.017 |
| 非凈化風進裝置壓力 | 0.0164 |
| E-101D殼程出口管溫度 | 0.0162 |
| 穩定塔下部溫度 | 0.016 |
| D-125液位 | 0.015 |
| K-103A進氣溫度 | 0.014 |
上述10個操作變量和7個原料性質(原料性質取了全部,未列出具體名稱),共17個特征值作為自變量輸入辛烷值損失模型的輸入。
4.4 自回歸滑動平均模型(ARMA)
ARMA模型曾廣泛應用于時間序列的分析和預測,其中,ARMA的本質是利用輸入的歷史數據作為建模基礎,基于其公式計算出未來時刻的最大可能發生的值。在此過程中,輸入的時間序列是一組隨時刻遞進排列的數據元組,排除其時間序列的背景,其序列的本質可以視為一組具有隱含特性的特征向量,即一組可以唯一代表某一類特征的序列,并具有該類特征的全部屬性。所以ARMA建模中的參數計算部分可以視為一種特殊的特征提取,將具備特征屬性的大量數據序列,以參數向量的形式映射到歐氏空間中。基于此分析,我們嘗試利用ARMA模型來捕獲每個操作位的顯式和隱式特征屬性,每個特征都可由一個唯一的參數向量代表,且該向量具備了該特征的序列中的隱含屬性,并將顯式和隱式特征屬性均體現在了參數向量中。另外,由于本題中的眾多特征各具自身的單位,所以若要對比其與目標對象的影響大小,需要對數據進行歸一化處理。而ARMA建模可以在參數計算的同時完成歸一化。在建模過程中,可根據具體序列的特性定階,而階數則也是模型參數個數。特別的,不同序列的參數是各自唯一的。利用ARMA,可將序列映射到歐氏空間中,并可由其對應的向量唯一確定。
圖神經網絡是一種適用于多實體,且實體間具有一定影響的可構成網絡模型的問題。為了在后續步驟中提供盡可能多的方法接口,我們在此處引入了圖神經網絡模型,并以圖網絡的形式對問題建模。本問題目的在于尋找354個可變操作位中,對RON損失影響最大的前n個操作位,其中各個操作位間具有不同程度的聯系和影響,每個操作位可視為一個節點,而操作位間的影響可經過歸一化后視為節點間邊的權重。依據以上,可將全部樣本建模為354+1(354為可操作變量,1為目標對象)個節點的完全無向加權圖,共325幀。圖模型網絡示意圖如下圖 4?1所示:
圖4-1 圖模型網絡
利用以上特性,可將多個特征對目標對象的影響程度分析并提取主要特征的問題,轉換成對一個維數為(355, 325)的圖中多個節點的參數向量間影響因子的分析并尋找影響程度較大節點的問題。
在此問題中,我們將對各個節點進行圖建模,并利用ARMA對各個節點進行參數向量求取,最后利用參數向量分析出各個節點對目標對象的影響程度。我們設計了算法1來實現該處細節:
算法1如下所示:
?此處,在進行ARMA建模前還需對原始數據進行判別和整定,對于ARMA建模,需要進行數據平穩化處理,目的在于剔除掉序列中的趨勢項。在此問題中,各個操作位的特征向量均是按照時間序列排成的,所以可能在實際工廠的操作中,會有時間趨勢隱藏在操作位的變化中。即,該處的各個序列具有時間結構,所以對于具有時間結構的序列,進行趨勢項分析和剔除是合理的。
完成數據平穩性檢測和處理后,即是對節點進行ARMA建模。此處我們的階數設置為ARMA(5,0)。確定階數,即可得到對應數目的參數,并構建參數向量。此處省略公式。
最后,根據計算結果,距離目標對象參數向量歐氏距離越近的,影響因子越小,表示對目標對象(產品的RON)影響程度越高。依照此規則,我們確定了10個操作位,各個操作位與其對應的影響因子。特征選擇結果如下表 4-2所示:
表4-2
| 操作變量名稱 | 影響因子 |
| S_ZORB AT-0005 | 1.545 |
| 進裝置原料硫含量 | 2.098 |
| D107轉劑線壓差 | 2.126 |
| 精制汽油出裝置流量 | 2.793 |
| R-101底格柵上下壓差 | 2.941 |
| 穩定塔底出口溫度 | 3.120 |
| K-103B排氣溫度 | 3.151 |
| S_ZORB AT-0013 | 3.289 |
| 混氫點氫氣流量 | 3.455 |
| 反吹氣體聚集器/補充氫差壓 | 4.113 |
5 問題三:建立辛烷值(RON)損失預測模型
5.1 問題分析
對目標進行建模,實際上也是一種回歸或者映射的過程。針對本題目所給的場景,我們需要解決的問題即為,將若干個主要特征和因素,映射至成品汽油的辛烷值RON和硫含量。由問題二要求對數據進行降維,我們篩選出與輸出指標相關程度最大的若干個特征作為模型輸入,不僅大大縮減了運算復雜程度,也能夠很好地將輸入操作變量映射至實際汽油輸出指標。
數據來源:附件一提供的325個樣本數據,目標輸出指標為:產品辛烷值(RON)和產品硫含量(μg/g)。輸入參數為問題二得出的10個操作變量,加上樣本的7個原料性質共17個。
問題要求:使用附件一中所提供的325個樣本數據建立辛烷值(RON)損失預測模型,并對模型進行驗證。
目標:利用附件一中樣本的60%作為訓練集對本文的模型進行訓練,總樣本的20%作為測試集,總樣本的20%作為驗證集,進行模型正確性驗證和模型性能評估。
5.2 模型簡析
問題三要求根據附件一所給數據集建立辛烷值(RON)損失預測模型,目前常用的預測模型建模方法主要有以下幾類:
BP神經網絡[[iii]]。BP神經網絡是一種以誤差逆向傳播進行算法訓練的多層前饋神經網絡。其主要優點在于:非線性的映射能力、泛化能力和容錯能力。該類方法可以儲存大量輸入與輸出的映射關系,而無需給出具體的數學方程。在存在大量輸入輸出數據的時候,經過訓練可以擬合出數據輸入輸出的非線性關系。故在處理這類復雜問題時,BP神經網絡具有很大的優勢。
5.3 模型結構
本文用BP(Back Propagation)神經網絡對目標模型進行建模,BP網絡為一種以誤差逆向傳播進行算法訓練的多層前饋神經網絡。根據問題二選擇的主要特征數據:
第一層為輸入層,由問題二對數據篩選的結果,輸入層包括17個神經元,和一個截距項b1。其中前7個神經元的輸入為原料性質相關參數,后10個神經元的輸入為上文中所提及的10個操作變量。
第二層為隱含層,包括9個神經元,和一個截距項b2,并以輸入層的每個神經元的輸出作為輸入。
第三層為輸出層,根據問題三對建立辛烷值(RON)損失預測模型的要求,包含兩個神經元,其輸入均為隱含層9個神經元的輸出,該層的輸出分別為產品辛烷值(RNO)和產品硫含量(μg/g)。
由于BP神經網絡每層的輸出都是上一層輸入的線性函數,若不使用激活函數,不管神經網絡有多少層結構,其最終的輸出都是輸入的線性組合,故使用激活函數給BP神經網絡引入非線性因素。本文設計的辛烷值(RON)損失預測模型的激活函數為ReLU[[i]](Rectified Linear Units)。
RELU函數作為激活函數有以下若干優點:
· 計算速度快:使用sigmoid函數計算反向傳播求誤差梯度時,計算量大,而使用ReLU函數的計算量要小很多,故在對神經網絡進行訓練時速度相對較快。
·應對梯度消失問題:對于一些深層的神經網絡,采用sigmoid函數容易出現梯度小的問題,從而無法對網絡完成訓練。使用ReLU函數作為激活函數,由于其導數為1,計算梯度時不會導致梯度減小。
·緩解過擬合問題:使用ReLU函數作為激活函數,會使一部分神經元的輸出為0,可以為整個網絡引入稀疏性,減少網絡中各個參數之間的相關性,緩解了過擬合現象的出現。
綜上所述,我們對本BP神經網絡的相關參數設置如下表 5-1所示:
表5-1 BP網絡相關參數設置
| 網絡層 | 節點數 | 激活函數 |
| Input layer | 17 | ReLU |
| Hidden layer | 9 | ReLU |
| Output layer | 2 | ReLU |
我們將在下文中分別將隨機森林和ARMA模型對操作變量進行選擇的結果,作為BP神經網絡的輸入,并對其進行相關分析。
5.4 損失函數
本文對模型損失函數的設置為總誤差(square error),其值為誤差平方和的1/2。針對問題三的模型建立過程中,本文中的BP神經網絡是一種以誤差逆向傳播進行算法訓練的多層前饋神經網絡,采用梯度下降法對每一層神經元的參數進行更新修正。
5.5 模型評估
本小節分別利用問題二中兩種特征選擇方法(隨機森林和ARMA)的輸出結果,作為預測模型的輸入,并對這兩種方案進行整體模型評估對比。表1為兩種特征選擇方法的結果分別作為模型輸入,其輸出硫含量和辛烷值(RON)的指標對比。
此處對于原始數據集的劃分為:訓練集60%、驗證集20%和測試集20%。以下展示實驗結果為測試結果。由于原始數據集是按照時間序列排序的,為了排除工廠生產中存在階段性的特性遲滯,防止引起局部過擬合,我們選擇將數據集樣本的排序順序打亂,再進行劃分。
產品辛烷值預測的準確率分別為:99.6%(隨機森林+BP)、99.2%(ARMA+BP)
產品硫含量預測的準確率分別為:70.8%(隨機森林+BP)、82.9%(ARMA+BP)
預測誤差如下表 5-2所示:
表5-2 預測誤差
| 產品硫含量,μg/g | |||
| RMSE | MAPE | MAE | |
| 隨機森林+BP | 1.468 | 0.292 | 1.162 |
| ARMA+BP | 1.641 | 0.171 | 0.923 |
| 產品辛烷值RON | |||
| RMSE | MAPE | MAE | |
| 隨機森林+BP | 0.437 | 0.004 | 0.357 |
| ARMA+BP | 0.910 | 0.008 | 0.694 |
6 問題四:主要變量操作方案的優化
6.1 問題分析
數據來源:附件一中全部樣本數據,其中原料性質、待生吸附劑、再生吸附劑的性質保持不變。
問題要求:在保證產品硫含量不大于5μg/g的前提下,降低樣本辛烷值RON損失大于30%,并得出對應的各個操作變量的優化結果。
目標:降低辛烷值RON損失值50%,并輸出各個操作變量的優化結果。
本問題要求利用問題三中訓練所得模型進行參數優化。整體來看,全部所選主要變量與目標變量間為非線性關系,對于非線性變量組間的多目標優化問題,遺傳算法及其相關變種是應用較廣泛的優化算法。
但對于本問題中的數據情況和可調步長要求,基于上述的問題分析,我們認為,也可用更簡單、更符合題目要求、且計算資源需求量較小的方法來實現優化。
6.2 優化方案
根據題目要求,要以各個樣本的當前樣本數據集為基礎,以操作變量信息作為操作標準,針對模型輸出(產品硫含量、產品辛烷值)進行操作位變量優化。為了更貼近現實的工業生產,我們選取樣本數據集的操作位參數為初始參數,并根據操作變量信息確定每個操作位的數值調整步長,因此,每個操作變量全部符合要求的可調值均為確定值,且均可枚舉。另外,在問題二中,我們尋找出的變量均為對目標變量重要性較高的。且按照重要性由大到小,將全部可調變量排序。
依據以上特性,我們選擇步進參數優化的方法,即從重要性最高的可調操作變量開始,逐個組成測試樣本,遍歷全部枚舉對象,尋找最優解組合。此處需要說明,并不是遍歷每個變量的全部取值間的排列組合,而是從重要性最高的變量開始,基于控制變量的思想,依次確定最優取值。此方法的優點在于計算量少,網絡結構簡單。由于所選的主要變量在實際的生產中并不是與其他變量相互獨立的,所以在優化過程中應當一定程度上考慮變量間的相互影響,在此處可利用圖神經網絡中的鄰接矩陣作為濾波器,輸入特征矩陣來進行優化,但由于時間和計算資源有限,本方案基于控制變量的思想選擇了更利于實現的逐個變量調整的方法。雖然無法最大程度上模擬實際生產,但由于我們的參數調整是從重要性最強的參量開始,且基于顯示數據集進行數值調整,可以一定程度上避免可變參量間的相關影響,且相對于參量的完全隨機初始化,更貼近生產中的實際操作。
6.3 優化結果及分析
結合問題五要求,先以編號為133的樣本為例,描述優化結果。所選取的操作位名稱可見問題二中所列結果。優化目標是維持產品硫含量不大于5μg/g,并使產品RON的損失降幅超過30%。對于133號樣本,數據集中給出初始值的RON損失是1.3,可優化降幅空間較大,根據題目要求,只要優化后的可變參量可使RON損失小于0.9,即符合要求。
在前面的問題中,我們使用了兩種方法進行特征提取,產生的結果也是不同的,所以此處也分別依照兩組結果進行優化。在我們的兩種方法中,損失降幅趨勢均是呈非線性增長的,最終趨于平穩,RON損失均維持在0.6左右,特征提取使用ARMA+BP方法的優化結果比隨機森林+BP的高2%。相對于原始數據,損失降幅均維持在60%左右,ARMA+BP的提取特征優化結果約為65.88%,隨機森林+BP的提取特征優化結果約為63.21%。具體的圖表將在問題五中進行可視化。并且,將會在問題五中進行更詳細的解釋。
從此實驗結果來看,我們的方法可以達到題目要求的降幅大于30%的標準。
我們也針對全部樣本進行了優化實驗,由于325個樣本中,部分樣本的RON損失已經小于1,可優化空間較小,導致了整體的平均優化結果有所降低。在維持產品硫含量低于5μg/g的基礎上,最后可實現的最優的RON損失降幅為53.42%(隨機森林+BP)和54.01%(ARMA+BP)。
7 模型的可視化展示(略)
8 模型評價
8.1 模型優點
綜合上述兩種特征選擇方法能夠從不同角度對主要操作變量進行調節操作,從而對產品辛烷值含量進行優化。最終的性能顯示我們的兩個方法均達到題目要求。
8.2 模型確定
?
[[i]] Z. Kang, C. Peng, Q. Cheng, and X. Liu eta, "Structured graph learning for clustering and semi-supervised classification", Pattern Recognition, 2020, 110, 107627.
[[i]] K. Tachibana and K. Otsuka, "Wind Prediction Performance of Complex Neural Network with ReLU Activation Function," 2018 57th Annual Conference of the Society of Instrument and Control Engineers of Japan (SICE), Nara, 2018, pp. 1029-1034.
[[i]] P. Gómez-Pérez, M. Crego-García and I. Cui?as, "Modeling vegetation attenuation patterns: A comparison between polynomial regressions and artificial neural networks," 2016 IEEE International Symposium on Antennas and Propagation (APSURSI), Fajardo, 2016, pp. 2061-2062.
[[ii]] P. J. Hargrave, "A tutorial introduction to Kalman filtering," IEE Colloquium on Kalman Filters: Introduction, Applications and Future Developments, London, UK, 1989, pp. 1/1-1/6.
[[iii]] Z. Caihong, W. Zengyuan and L. Chang, "A Study on Quality Prediction for Smart Manufacturing Based on the Optimized BP-AdaBoost Model," 2019 IEEE International Conference on Smart Manufacturing, Industrial & Logistics Engineering (SMILE), Hangzhou, China, 2019, pp. 1-3.
[[i]] L. Breiman, "Random Forest", Machine Learning, 45(1), 5-32, 2001
[[ii]] P. Geurts, D. Ernst., and L. Wehenkel, " Extremely randomized trees", Machine Learning, 63(1), 3-42, 2006.
[[iii]] G. Wei, J. Zhao, Z. Yu, Y. Feng, G. Li and X. Sun, "An Effective Gas Sensor Array Optimization Method Based on Random Forest*," 2018 IEEE SENSORS, New Delhi, 2018, pp. 1-4.
[[i]] Hongchuan Yu and M. Bennamoun, "1D-PCA, 2D-PCA to nD-PCA," 18th International Conference on Pattern Recognition (ICPR'06), Hong Kong, 2006, pp. 181-184.
[[ii]] F. Ye, Z. Shi and Z. Shi, "A Comparative Study of PCA, LDA and Kernel LDA for Image Classification," 2009 International Symposium on Ubiquitous Virtual Reality, Gwangju, 2009, pp. 51-54.
[[iii]] H. Rajaguru and S. Kumar Prabhakar, "Performance Analysis of Local Linear Embedding (LLE) and Hessian LLE with Hybrid ABC-PSO for Epilepsy Classification from EEG signals," 2018 International Conference on Inventive Research in Computing Applications (ICIRCA), Coimbatore, 2018, pp. 1084-1088.
[[iv]] M. Peng, Z. WeiDong, L. Xiang and N. Junke, "Correlation Power Analysis for SM4 Based on ISOMAP," 2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC), Chongqing, China, 2020, pp. 1165-1168.
[[v]] N. Pezzotti, B. P. F. Lelieveldt, L. v. d. Maaten, T. H?llt, E. Eisemann and A. Vilanova, "Approximated and User Steerable tSNE for Progressive Visual Analytics," in IEEE Transactions on Visualization and Computer Graphics, vol. 23, no. 7, pp. 1739-1752, 1 July 2017.
[[vi]] W. Teng, L. Cheng and K. Zhao, "Application of kernel principal component and Pearson correlation coefficient in prediction of mine pressure failure," 2017 Chinese Automation Congress (CAC), Jinan, 2017, pp. 5704-5708.
[[vii]] Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. "Variable selection using Random Forests. " Pattern Recognition Letters, Elsevier, 2010, 31 (14), pp.2225-2236. hal-00755489
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的“华为杯”第17届中国研究生数学建模竞赛B题二等奖论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器人网首页应用实例工业自动化 Et
- 下一篇: 【Java】 剑指offer(67) 把