2020数字中国创新大赛-智能算法赛-冠军方案
寫在前面的話
大家好,我是 Champion Chasing Boy 的 DOTA,在隊友 魚遇雨欲語與余、 塵沙杰少、林有夕、嗯哼哼唧 的Carry下,最終在本屆智能算法賽拿到了復賽總榜單Top1的成績。下面分享一下我們團隊在A、B、C榜各階段的解決方案。
一、賽題背景介紹
本賽題基于位置數(shù)據(jù)對海上目標進行智能識別和作業(yè)行為分析,要求選手通過分析漁船北斗設(shè)備位置數(shù)據(jù),得出該船的生產(chǎn)作業(yè)行為,具體判斷出是拖網(wǎng)作業(yè)、圍網(wǎng)作業(yè)還是流刺網(wǎng)作業(yè)。初賽將提供11000條(其中7000條訓練數(shù)據(jù)、2000條testA、2000條testB)漁船軌跡北斗數(shù)據(jù)。
復賽考慮以往漁船在海上作業(yè)時主要依賴AIS數(shù)據(jù),北斗相比AIS數(shù)據(jù),數(shù)據(jù)上報頻率和數(shù)據(jù)質(zhì)量均低于AIS數(shù)據(jù),因此復賽擬加入AIS軌跡數(shù)據(jù)輔助北斗數(shù)據(jù)更好的做漁船類型識別,其中AIS數(shù)據(jù)與北斗數(shù)據(jù)的匹配需選手自行實現(xiàn),具體細節(jié)復賽開賽時更新。同時,希望選手通過數(shù)據(jù)可視化與分析,挖掘更多海洋通信導航設(shè)備的應(yīng)用價值。
數(shù)據(jù)示例:
漁船ID:漁船的唯一識別,結(jié)果文件以此ID為標示
x: 漁船在平面坐標系的x軸坐標
y: 漁船在平面坐標系的y軸坐標
速度:漁船當前時刻航速,單位節(jié)
方向:漁船當前時刻航首向,單位度
time:數(shù)據(jù)上報時刻,單位月日 時:分
type:漁船label,作業(yè)類型
原始數(shù)據(jù)經(jīng)過脫敏處理,漁船信息被隱去,坐標等信息精度和位置被轉(zhuǎn)換偏移。
選手可通過學習圍網(wǎng)、刺網(wǎng)、拖網(wǎng)等專業(yè)知識輔助大賽數(shù)據(jù)處理。
AIS數(shù)據(jù):
ais_id:AIS設(shè)備的唯一識別ID
評估指標
其中P為某類別的準確率,R為某類別的召回率,評測程序f1函數(shù)為sklearn.metrics.f1_score,average='macro'。
方案整體框架設(shè)計
二、A、B榜方案分享(算法篇)
2.1 數(shù)據(jù)探索&信息挖掘
刺網(wǎng)變化情況 刺網(wǎng)的線段看上去很多較為規(guī)范,很多看上去像是在很多地方放了很多網(wǎng),然后船去收網(wǎng)的樣子。
從數(shù)據(jù)中挖掘信息是輔助識別作業(yè)類型的關(guān)鍵,不同作業(yè)的漁船,其行駛軌跡、速度、經(jīng)緯度變化等都存在一定的差異。
拖網(wǎng)變化情況
- 拖網(wǎng)的坐標看上去有些亂,lon 的移動相較于lat 要大一些。
- 可能因為拖網(wǎng)的關(guān)系,會明顯出現(xiàn)幾段直線;
圍網(wǎng)變化情況
- 圍網(wǎng)很多都有明顯的畫圓或者半圓的痕跡;
- 有些圍網(wǎng)看上去像是快速轉(zhuǎn)圈的情況;
刺網(wǎng)變化情況
- 刺網(wǎng)的線段看上去很多較為規(guī)范,很多看上去像是在很多地方放了很多網(wǎng),然后船去收網(wǎng)的樣子。
2.2 特征工程框架
單屬性特征,從速度、方向、經(jīng)緯度等方面,由全局和局部兩個方向,從分位數(shù)特征、分桶統(tǒng)計特征刻畫漁船的基本畫像。
多屬性特征,采用速度相關(guān)的交叉特征為主。
2.3 算法框架
本次比賽依舊使用了“倚天屠龍”之一的LightGBM模型。
很多樣本經(jīng)緯度幾乎不變,速度方向信息受波浪影響波動,可能是停泊等原因,分開建模。
2.4 設(shè)備匹配算法
TWS和SWS
- 當兩個軌跡在長時間和長距離內(nèi)相似,那么它們就應(yīng)該是相似的,則稱其為同源軌跡。
- 這里通過時間加權(quán)相似(TWS)和空間加權(quán)相似度(SWS)兩種路徑匹配算法來匹配北斗數(shù)據(jù)和AIS數(shù)據(jù),同時幫助挖掘AIS數(shù)據(jù)的價值。
基于對抗驗證的匹配算法(杰少塵沙)
本賽題 杰少 提出了 基于對抗驗證的匹配算法,將無監(jiān)督問題轉(zhuǎn)為有監(jiān)督問題,同時易于加入多種不同的信息,將多種不同的因素信息一起進行考慮。
三、C榜方案分享(可視化篇)
3.1 系統(tǒng)架構(gòu)
可視化方案部分,由 首席全棧搬磚師 林有夕 實現(xiàn)了智慧海洋云系統(tǒng)的搭建。主要包含:
- Angular.js前端框架 + echarts可視化,完成前后端分離設(shè)計,保證代碼和數(shù)據(jù)安全;
- Nginx + Flask 實現(xiàn)web接口 ,靈活部署。利用數(shù)據(jù)預(yù)計算+緩存+索引優(yōu)化技術(shù),提高效率。
3.2 應(yīng)用案例
漁船作業(yè)種類繁多,分布差異巨大,對漁船進行大數(shù)據(jù)畫像,描繪知識圖譜,以便于政府部門掌握漁船的 基本信息、狀態(tài)監(jiān)控和行為特點等。
使用時序模型預(yù)測漁船未來30分鐘所在的位置,并結(jié)合風控畫像計算碰撞指數(shù)。綜合考量船速、漁船密度、設(shè)備掉線時常、定位漂移率等指標。
流量預(yù)測方面,結(jié)合船只運行軌跡以及歷史行為對未來24小時區(qū)域進行流量預(yù)測。
通過熱力圖展示區(qū)域碰撞系數(shù),對碰撞做出有效的提前預(yù)警。
安全生產(chǎn)一直是我們關(guān)心的一個方向,在經(jīng)過前面圖譜的構(gòu)建、可視化數(shù)據(jù)的深度分析和挖掘之后,我們有了一定的基礎(chǔ),通過機器學習、人工智能的方式對海洋漁船流量進行預(yù)測,向安全監(jiān)控進行賦能,幫助漁船調(diào)度、防碰撞預(yù)警、資源的合理安排等。通過動態(tài)分布圖刻畫漁船行為遷移規(guī)律。
寫在最后的話
以上是我們團隊Champion Chasing Boy 在本次數(shù)字中國創(chuàng)新大賽智能算法賽道中的完整方案。本篇文章只從整體架構(gòu)方面進行了方案介紹,具體涉及的部分細節(jié),敬請關(guān)注其他隊友的分享。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的2020数字中国创新大赛-智能算法赛-冠军方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐算法炼丹笔记:非采样的负样本
- 下一篇: 推荐搜索炼丹笔记:向量召回 MIND多兴