2020数字中国创新大赛-智能算法赛-冠军方案分享
寫在前面的話
大家好,我是 Champion Chasing Boy 的 DOTA,在隊友 魚遇雨欲語與余、 塵沙杰少、林有夕、嗯哼哼唧 的Carry下,最終在本屆智能算法賽拿到了復賽總榜單Top1的成績。下面分享一下我們團隊在A、B、C榜各階段的解決方案。
一、賽題背景介紹
本賽題基于位置數據對海上目標進行智能識別和作業行為分析,要求選手通過分析漁船北斗設備位置數據,得出該船的生產作業行為,具體判斷出是拖網作業、圍網作業還是流刺網作業。初賽將提供11000條(其中7000條訓練數據、2000條testA、2000條testB)漁船軌跡北斗數據。
復賽考慮以往漁船在海上作業時主要依賴AIS數據,北斗相比AIS數據,數據上報頻率和數據質量均低于AIS數據,因此復賽擬加入AIS軌跡數據輔助北斗數據更好的做漁船類型識別,其中AIS數據與北斗數據的匹配需選手自行實現,具體細節復賽開賽時更新。同時,希望選手通過數據可視化與分析,挖掘更多海洋通信導航設備的應用價值。
數據示例:
漁船ID:漁船的唯一識別,結果文件以此ID為標示
x: 漁船在平面坐標系的x軸坐標
y: 漁船在平面坐標系的y軸坐標
速度:漁船當前時刻航速,單位節
方向:漁船當前時刻航首向,單位度
time:數據上報時刻,單位月日 時:分
type:漁船label,作業類型
原始數據經過脫敏處理,漁船信息被隱去,坐標等信息精度和位置被轉換偏移。
選手可通過學習圍網、刺網、拖網等專業知識輔助大賽數據處理。
AIS數據:
ais_id:AIS設備的唯一識別ID
評估指標
其中P為某類別的準確率,R為某類別的召回率,評測程序f1函數為sklearn.metrics.f1_score,average='macro'。
方案整體框架設計
二、A、B榜方案分享(算法篇)
2.1 數據探索&信息挖掘
刺網變化情況 刺網的線段看上去很多較為規范,很多看上去像是在很多地方放了很多網,然后船去收網的樣子。
從數據中挖掘信息是輔助識別作業類型的關鍵,不同作業的漁船,其行駛軌跡、速度、經緯度變化等都存在一定的差異。
拖網變化情況
- 拖網的坐標看上去有些亂,lon 的移動相較于lat 要大一些。
- 可能因為拖網的關系,會明顯出現幾段直線;
圍網變化情況
- 圍網很多都有明顯的畫圓或者半圓的痕跡;
- 有些圍網看上去像是快速轉圈的情況;
刺網變化情況
- 刺網的線段看上去很多較為規范,很多看上去像是在很多地方放了很多網,然后船去收網的樣子。
2.2 特征工程框架
單屬性特征,從速度、方向、經緯度等方面,由全局和局部兩個方向,從分位數特征、分桶統計特征刻畫漁船的基本畫像。
多屬性特征,采用速度相關的交叉特征為主。
2.3 算法框架
本次比賽依舊使用了“倚天屠龍”之一的LightGBM模型。
很多樣本經緯度幾乎不變,速度方向信息受波浪影響波動,可能是停泊等原因,分開建模。
2.4 設備匹配算法
TWS和SWS
- 當兩個軌跡在長時間和長距離內相似,那么它們就應該是相似的,則稱其為同源軌跡。
- 這里通過時間加權相似(TWS)和空間加權相似度(SWS)兩種路徑匹配算法來匹配北斗數據和AIS數據,同時幫助挖掘AIS數據的價值。
基于對抗驗證的匹配算法(杰少塵沙)
本賽題 杰少 提出了 基于對抗驗證的匹配算法,將無監督問題轉為有監督問題,同時易于加入多種不同的信息,將多種不同的因素信息一起進行考慮。
三、C榜方案分享(可視化篇)
3.1 系統架構
可視化方案部分,由 首席全棧搬磚師 林有夕 實現了智慧海洋云系統的搭建。主要包含:
- Angular.js前端框架 + echarts可視化,完成前后端分離設計,保證代碼和數據安全;
- Nginx + Flask 實現web接口 ,靈活部署。利用數據預計算+緩存+索引優化技術,提高效率。
3.2 應用案例
漁船作業種類繁多,分布差異巨大,對漁船進行大數據畫像,描繪知識圖譜,以便于政府部門掌握漁船的 基本信息、狀態監控和行為特點等。
使用時序模型預測漁船未來30分鐘所在的位置,并結合風控畫像計算碰撞指數。綜合考量船速、漁船密度、設備掉線時常、定位漂移率等指標。
流量預測方面,結合船只運行軌跡以及歷史行為對未來24小時區域進行流量預測。
通過熱力圖展示區域碰撞系數,對碰撞做出有效的提前預警。
安全生產一直是我們關心的一個方向,在經過前面圖譜的構建、可視化數據的深度分析和挖掘之后,我們有了一定的基礎,通過機器學習、人工智能的方式對海洋漁船流量進行預測,向安全監控進行賦能,幫助漁船調度、防碰撞預警、資源的合理安排等。通過動態分布圖刻畫漁船行為遷移規律。
寫在最后的話
以上是我們團隊Champion Chasing Boy 在本次數字中國創新大賽智能算法賽道中的完整方案。本篇文章只從整體架構方面進行了方案介紹,具體涉及的部分細節,敬請關注其他隊友的分享。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的2020数字中国创新大赛-智能算法赛-冠军方案分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020数字中国创新大赛—算法赛开源方案
- 下一篇: 推荐算法工程笔记:PySpark特征工程