旷视研究院夺得 NeurIPS 2021 ML4CO 组合优化比赛 Dual task 赛道第一
近日,頂級國際會議 NeurIPS 的 The Machine Learning for Combinatorial Optimization(以下簡稱:ML4CO) 組合優化比賽結果揭幕,來自曠視研究院的代表隊榮獲 Dual Task 賽道冠軍。
ML4CO 全稱基于機器學習的組合優化,本次比賽由加拿大蒙特利爾理工大學和蒙特利爾大學機器學習研究所 (Mila) 主辦。Mila是全球領先的深度學習研究中心,由蒙特利爾大學約書亞·本希奧(Yoshua Bengio)教授創立。約書亞·本希奧也是“深度學習三巨頭”之一,曾在2018年奪得ACM圖靈獎(又稱“計算機領域的諾貝爾獎”)。
組合優化問題介紹
假如我們周末要去跳蚤市場擺攤,最多可以帶 15 千克的商品,每個商品有對應的重量和價值,我們該如何選擇商品組合,才能使包里的東西總價值最大呢?
因為有 5 件物品,每件物品帶還是不帶,合起來有 2 的 5 次方,即 32 種選擇。從這些選擇中找到最優的解,這樣的“背包問題”就是一個組合優化問題的典型例子。
一般的情況,把 n 個物品的重量和價值分別記為?W=(w1,w2,...,wn)?和?V=(v1,v2,...,vn),記背包中放置物品的總重量最大為?wmax。
從組合優化的角度求解這個問題,就是將這個問題轉化為求解?X=(x1,x2,...,xi,...,xn),其中?xi 是一個只能取 0 或 1 的離散變量,代表第 i 個物品取或者不取。
我們希望得到的?X?能滿足背包重量?WXT≤Wmax?的限制,并最大化背包中物品的總價值?VXT。
得到“背包問題”的數學表達形式后,我們可以使用專業的組合優化問題求解器(例如開源求解器 SCIP)求解上述問題。
組合優化問題的求解在現實生活中同樣存在廣泛的應用,例如上圖中的貨物運輸問題,我們需要調度貨車從中央倉庫運輸貨物到門店,在滿足門店需求的限制下使得總運輸成本最小。
實際中的組合問題具有搜索空間大(也意味著優化空間大)、混合離散與連續變量等特點。
賽題介紹
(基于深度學習的組合優化)
有很多組合優化是 NP-hard 的,因此使用的一般是一些啟發式算法。近年來,伴隨著深度學習在多個領域的成功應用,使用深度學習技術,從大量的數據中自主學習啟發式算法,輔助甚至替代求解器求解組合優化問題,成為學界研究的一個新的熱點。
本次挑戰賽的重點是通過機器學習方法替代現有組合優化求解器中的啟發式組件,來達到提升現有的組合優化求解器求解性能的目的。
基于開源求解器? SCIP 和它的Python封裝 Ecole,本次比賽專門針對組合優化問題中的混合整數線性規劃問題 (MILP)進行優化;
主辦方提供了三個 MILP 數據集,它們來自完全不同的現實問題,參賽者可以針對這三個數據集提交不同的模型。
其中 Dual Task 賽道研究如何更快收緊 MILP 問題的約束邊界,參賽者需要最小化 Dual Integral(如下圖所示,最小化積分區域面積),模型效果最后轉化為一個累計的獎勵函數。
曠視奪冠算法介紹
曠視研究院參賽隊針對三個數據集的不同特點,在數據收集,模型結構和訓練策略等方面進行改進,最終取得綜合排名第一(表中 Nuri 隊)。
比賽官方提供的基準算法使用了"Exact combinatorial optimization with graph convolutional neural networks"[1] 中的方法。
在該篇文獻中,作者將經典的啟發式搜索算法"Strong Branching"[2] 作為專家知識,使用圖神經網絡模仿專家行為,訓練后的神經網絡可以替換組合優化求解器中的部分組件,并提升求解器的最終求解性能。
Nuri 隊最終提交的模型表現與Baseline在驗證集上的對比如下表所示。
"Anonymous" Benchmark
針對基準方法中收集的訓練數據和實際與求解器交互得到的測試數據分布不一致的問題,我們使用了數據聚合 (DA) 方法:
數據聚合從一個隨機初始化的模型開始,不斷讓新訓練的模型與求解器交互,獲得新的訓練數據,并對數據進行專家知識標注,通過對模型和數據的不斷迭代,最終縮小訓練數據和測試數據差異。
我們還修改了基準中圖神經網絡的卷積方式(CM),并通過添加 Dropout 層的方式避免數據過擬合,最終驗證集的提升效果參考下圖 (DA 后數字代表模型和數據的交替迭代輪次)。
"Item?Placement"?Benchmark
對于 Item Placement 數據集,我們同樣使用數據聚合的方法,相較于基準算法,表現有一定的提升。
我們進一步對數據聚合訓練出的多個模型集成,最終將模型在驗證集的表現從 4992 提升至?7562。
如下圖所示,我們從驗證集中取出一個問題作為示例,在 15 分鐘的時間限制內,集成后的模型獎勵曲線要比基準模型的獎勵曲線上升更快。
更多方法細節將在 NeurIPS 后續活動中公布。
參考文獻:
[1] Exact combinatorial optimization with graph convolutional neural networks (NIPS 2019)
[2] Branching rules revisited (Operations Research Letters, 2005)
實習生招聘
本次冠軍隊由來自曠視研究院 AI 計算組的四位同學組成。AI 計算組此前產出了 DoReFa-Net(量化網絡),EAST(OCR),GeneGAN(圖像生成),LearningToPaint(強化學習)和 RIFE (光流插幀) 等工作。
更多內容請點擊文末“閱讀原文”,在知乎專欄了解詳情。
對組合優化、強化學習、量化算法和 3D 建模、AI 插幀等方向實習感興趣的同學,歡迎投遞簡歷,標記“ 姓名+學校+年級+AIC 組實習生”,發送至?ur@megvii.com
聯系我們
如有任何問題,歡迎大家添加【曠視研究院小姐姐】微信,回復【學生交流群】與我們聯系哦!
總結
以上是生活随笔為你收集整理的旷视研究院夺得 NeurIPS 2021 ML4CO 组合优化比赛 Dual task 赛道第一的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java毕业生设计中小型饭馆餐饮管理系统
- 下一篇: Access 查询的IIF的写法