赛后总结:第四届工业大数据竞赛注塑成型
賽后總結:第四屆工業大數據競賽注塑成型
原文首發于我的公眾號
前言
以第四屆工業大數據競賽虛擬量測任務為例,介紹大家的思路。自己代碼亂寫,導致不知道最后要復現的是哪個,加上工作上各種人員優化,就沒有進一步。雖然放棄比賽,但對數據掌握的還算透徹,剛好決賽也都有答辯視頻,就我個人理解和優秀選手的開源,在這里和大家一起分享一下。比賽鏈接:http://www.industrial-bigdata.com/Competition
只有一次評分的機會,本以為是摸獎賽,但前排還是很穩健。祝賀各位優秀的選手,也通過直播學習了一下大家的思路,學習了很多新思路和方法,總結如下。很多基于我對賽題的理解,以及根據答辯視頻的猜測,如有錯誤之處,歡迎指正。
工業大數據
工業大數據有著自己的特點,因此結合工業特點和機器學習是關鍵的一點。
工業大數據數據質量的“3B”挑戰:broken,bad,background
工業大數據的“3C”目的:Comparison(比較性),Correlation (相關性),Consequence (因果性)
關于數據和模型也可以參考我之前的兩篇文章:
數據競賽:第四屆工業大數據競賽-虛擬測量
數據挖掘III:數據敏感性
模型總結
star:關鍵點在于,深度學習模型一把梭,效果也非常好,能把深度學習模型調的效果如此之好很厲害。主要采用ResSluice模型,以及多個size同時學習的多任務學習。
中南小組:深挖機器參數和過程參數。也是深度學習模型,采用了卷積神經網絡conv1D和spatial pyramid pooling,對時域特征裁補padding,并將時域特征進行整合。
Micro_i:主要在于運用了時間序列特征方法以及autoencoder的表征學習。打標,根據調機段對尺寸數據分組,也就是時間序列相關的衍生特征。在特征生成和特征篩選方面做的很細致。
GT_respect:詳細細致的特征清洗、缺失填充、標準化、PCA降維。模型采用xgboost對size1和size2建模,size3采用LightGBM建模,并嘗試了模型融合。
MX:樹模型與階段優化。時域統計特征,并注重了注射、保壓、冷卻、脫模階段的時域特征,額外的比如peak-to-peak等特征,采用了Lightgbm模型。主要采用相關性降維。
DGAIBD:發現了訓練集和測試集的不同。異常樣本分析去掉了幾個size異常點,而特征幾乎差不多,因此去掉了這幾個異常點。特征采用6個時間特征與3個頻域特征。并且將size3的預測值作為size1的特征用來預測了。
石龍:去除唯一值特征、共線性特征和異常點,高頻數據采用平均值、中位數、最大值、求和、標準差、偏度等。模型采用深度學習,bn層和dropout層,設計時借鑒無限寬的神經網絡特點。loss函數優化、參數初始化。
許澤霖:特征工程上對高頻傳感器提取了mean\max\min\median\var等特征,還依據不同phase選取了很多的特征,skew,kurt,sum等。模型xgboost和lightgbm,樣本選擇時去除了幾個異常點,也用了主成分分析。
聯系方式
公眾號搜索:YueTan
總結
以上是生活随笔為你收集整理的赛后总结:第四届工业大数据竞赛注塑成型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 是否有必要使用外键?为什么不用外键?
- 下一篇: SpringAop与AspectJ的联系