AAAI 2019 | 自动机器学习计算量大!这种多保真度优化技术是走向应用的关键
機器之心編輯
作者:Yi-Qi Hu, Yang Yu, Wei-Wei Tu, Qiang Yang, Yuqiang Chen , Wenyuan Dai
參與:路雪
自動機器學習一直以來都以計算量大而著稱,貝葉斯優化等以高效著稱的方法也都沒能很好解決此問題,機器學習開發者很多還是依賴于經驗與直觀理解進行手動調參。近日南京大學、第四范式和香港科技大學提出了一種多保真度自動機器學習方法,其在優化過程中利用修正后低保真度評價來代替原始的高保真度評價,而大大減少了總體評價的代價。
自動機器學習能夠大幅度降低機器學習門檻,使非機器學習甚至非計算機領域能夠快速使用機器學習算法,因而越來越受到關注。目前求解自動機器學習問題的常規方法是將機器學習過程形式化為一個黑盒優化任務,優化的目標是學習過程在學習任務上的某一評價指標。
由于自動機器學習的優化目標具有不連續、不可導等數學性質,所以一些搜索和非梯度優化算法被用來求解該問題。此類算法通過采樣和對采樣的評價進行搜索,往往需要大量對采樣的評價才能獲得比較好的結果。然而,在自動機器學習任務中評價往往通過 k 折交叉驗證獲得,在大數據集的機器學習任務上,獲得一個評價的時間代價巨大。這也影響了優化算法在自動機器學習問題上的效果。所以一些減少評價代價的方法被提出來,其中多保真度優化就是其中的一種。
多保真優化的設定是有多種不同保真度的評價方式。低保真度評價上,獲得評價結果代價小,但是評價結果不準確;在高保真度評價上,評價結果準確,但是獲得評價的代價很大。自動機器學習天然吻合這樣的優化設定,通過隨機選取部分數據集作為評價中訓練數據集的方式可以構建不同保真度的評價。但是 PAC 理論可知,在部分數據集上的評價結果存在一定的偏差,本工作提出了一種利用修正后低保證度評價來代替高保真度評價,用于優化中,大大減少了評價的代價,提高了優化效果。
本工作利用有限的高保真度評價樣本學習一個預測器,用于預測高低保真度評價之間的殘差,在優化中使用低保真度評價和殘差預測值之和代替高保真度評價。關鍵難點在于高保真度評價有限,用于訓練預測器的樣本極少,本工作提出了一種系列化遷移擴展的方式,預訓練數個基預測器,然后線性組合基預測器的方式得到最終的殘差預測器。通過這種方式解決了訓練樣本較少的問題。
多保真度技術是大規模自動機器學習優化問題走向實用的關鍵技術,大幅度降低評價代價為優化算法提供了更多探索的機會,使得優化算法能夠發揮最大效能求解自動機器學習問題。
論文:Multi-Fidelity Automatic Hyper-Parameter Tuning via Transfer Series Expansion?
論文地址:http://lamda.nju.edu.cn/huyq/papers/mfopt-19.pdf
論文提出的方法
我們提出一種通用的多保真度優化框架,此框架通過簡單的變換即可應用于任意非梯度優化(derivative-free optimization)方法中。該框架的主要思路是:基于一些高保真度的觀察結果,學習殘差預測器以糾正優化過程中低保真度評價的偏差。由于高保真度評價有限,因此訓練準確的預測器非常困難。為了解決該問題,我們提出了系列化遷移擴展(Transfer Series Expansion,TSE)方法,TSE 通過遷移多個基預測器的方式來訓練最終的殘差預測器。Ψ 指最終的預測器,ψ = {ψ_1, ψ_2, . . . , ψ_k} 指一系列基預測器。通過線性組合的方式將 ψ 擴展為 Ψ。
多保真度優化框架
我們設計了一個適用于任意非梯度優化方法的通用多保真度框架,主要研究最小化問題。非梯度優化的關鍵步驟是如何生成新樣本 x。現在令 SampleO 表示非梯度優化方法中生成采樣的步驟,其中 O 為非梯度優化方法。大多數非梯度優化方法都屬于基于模型(model-based)的方法,采樣步驟包括在(X, f)的建模過程和基于模型的采樣過程,不同的模型有不同的采樣步驟。
在多保真度優化中,它會引入低保真度評價 f_L 以減少總的評價成本。該框架還會學習一個預測器 Ψ 以估計高保真度和低保真度評價之間的殘差。隨后在修正后的評價(f_L+Ψ)上執行優化,這樣我們在修正后評價的優化結果,在真實的高保真度評價上仍有很好的表現。
系列化遷移擴展 (TSE)
在 Algorithm 2 中,用于訓練 Ψ 的數據集實例數量很少,因為 f_H 的評價成本高。TSE 可以在訓練數據集規模很小的情況下使 Ψ 收斂。
實驗
我們基于分類優化方法,利用 TSE 實現了多保真度框架,并將其命名為 TSESRACOS。在實驗部分,我們使用 TSESRACOS 在一些真實數據集上對 LightGBM 調參。
表 1:數據集信息。|D| 表示數據集 D 中的樣本數。驗證數據集是通過對 D^train 中的樣本以 10% 的采樣律進行隨機采樣獲得。r_L 和 r_M 是??的構建低保真度訓練樣本時的子采樣率。
表 2:多個對比方法的 AUC 性能和整體時間(wall-clock time)對比。LF-Eval 和 HF-Eval 表示最優解的低保真度和高保真度評價值、Test 表示最優解的泛化性能、加粗數字表示最好的 AUC 分數。TSETRANS 方法將 Miniboone 數據集上的基預測器遷移到其他數據集。因此 TSETRANS 在 Miniboone 上的結果為空。HF-ONLY^? 表示 HF-ONLY 在大型數據集上的超參優化在消耗一定的時間后提前停止。
圖 1:總體時間 AUC 曲線圖。實線表示高保真度值曲線,虛線表示低保真度值曲線,帶圓點的線表示優化的目標函數曲線。同樣顏色的實線和虛線是在同樣樣本上的高保真度和低保真度評價值。X 軸展示的時間為 LF-ONLY 所消耗的時間。
圖 2:在每一個預測器訓練中,平均回歸預測器誤差 |f_L+Ψ?f_H| 的直方圖。僅對比 TSESRACOS(綠色)和 RFSRACOS(藍色)的預測誤差。X 軸表示殘差預測器訓練數據集中的樣本個數。
本文為機器之心編輯,轉載請聯系本公眾號獲得授權。
?------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報道:content@jiqizhixin.com
廣告 & 商務合作:bd@jiqizhixin.com
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的AAAI 2019 | 自动机器学习计算量大!这种多保真度优化技术是走向应用的关键的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图解当前最强语言模型BERT:NLP是如
- 下一篇: 百度智能小程序正式开源,开发方案详解