做时间序列预测有必要用深度学习吗?梯度提升回归树媲美甚至超越多个DNN模型...
?作者?|?杜偉、陳萍
來源?|?機器之心
在深度學習方法應用廣泛的今天,所有領域是不是非它不可呢?其實未必,在時間序列預測任務上,簡單的機器學習方法能夠媲美甚至超越很多 DNN 模型。
過去幾年,時間序列領域的經典參數方法(自回歸)已經在很大程度上被復雜的深度學習框架(如 DeepGIO 或 LSTNet 等)更新替代。這是因為傳統方法可能無法捕獲長期和短期序列混合傳遞的信息,而深度學習方法的思路是掌握數據中的跨時非線性依賴。從結果來看,這些深度學習方法不僅優于 ARIMA 等傳統方法和梯度提升回歸樹(Gradient Boosting Regression Tree, GBRT)等簡單機器學習模型,而且增強了這樣一種預期,即機器學習領域的時間序列預測模型需要以深度學習工作為基礎,才能得到 SOTA 結果。
但是,推薦系列領域的最新啟示表明,深度學習方法在機器學習各種研究分支取得的成就需要對簡單高效模型定期確認和評估,以保持各自研究領域進展的真實性。除了時間序列預測模型越來越復雜之外,另一個動機包括文獻中正在完善的深度學習模型在處理時間序列預測問題上的片面性,因此限制了現有解決方案方法的多樣性。
在前段時間的一篇論文《Do We Really Need Deep Learning Models for Time Series Forecasting?》中,來自德國希爾德斯海姆大學計算機科學系的研究者展示了通過精心配置的輸入處理結構,GBRT 等簡單但強大的集成模型在時間序列預測領域能夠媲美甚至超越很多 DNN 模型。
論文標題:
Do We Really Need Deep Learning Models for Time Series Forecasting?
論文鏈接:
https://arxiv.org/pdf/2101.02118.pdf
研究者對特征工程多輸出 GBRT 模型進行了評估,并提出了以下兩個研究問題:
對于用于時間序列預測的基于窗口的學習框架來說,精心配置 GBRT 模型的輸入和輸出結構有什么效果?
一個雖簡單但配置良好的 GBRT 模型與 SOTA 深度學習時間序列預測框架相比如何?
為了回答這兩個問題,研究者選擇了雙重實驗設置,分別解決兩類預測任務,即系統化方式中的單變量和多變量預測。目的是評估 GBRT 模型以及在頂會(NeurIPS、KDD、SIGIR、ECML、ICML、CIKM、IJCAI、ICLR 等)中出現的 SOTA 深度學習方法。這項研究的整體貢獻可以總結如下:
一,研究者將一個簡單的機器學習方法 GBRT 提升了競品 DNN 時間序列預測模型的標準。首先將 GBRT 轉換成一個基于窗口的回歸框架,接著對它的輸入和輸出結構進行特征工程,如此便能從額外上下文信息中獲益最多;
二,為了突出輸入處理對時間序列預測模型的重要性,研究者通過實證證明了為什么基于窗口的 GBRT 輸入設置可以在時間序列預測領域提高 ARIMA 和原版 GBRT 等精心配置的模型所產生的預測性能;
三,研究者比較了 GBRT 與各種 SOTA 深度學習時間序列預測模型的性能,并驗證了它在單變量和雙變量時間序列預測任務中的競爭力。
這項研究也引起了不少人的共鳴。有人認為,時間序列分類任務同樣也沒有必要用深度學習方法。在一些情況下,SVMs 或邏輯回歸方法表現更好,速度也更快。
研究設計
選擇基線。研究者系統地過濾了 2016 年至 2020 年在 NeurIPS、KDD、SIGIR、SDM、ECML、ICML、CIKM、IJCAI、ICLR 等會議表現較好的論文集。論文需滿足以下要求:
主題:只考慮時間序列預測領域的研究;
數據結構:專用數據類型,但如異步時間序列和概念化為圖形的數據被排除在外;
可復現:數據、源代碼應公開。如果源代碼不可用,但實驗設置有清晰的文檔,研究也可以從實驗中復制結果;
計算的可行性:研究中得出的結果能夠以易于處理的方式復現,并在合理的時間內可計算。
評估。該研究在兩個層次上對時間序列預測 GBRT 模型進行評估:一個單變量和一個多變量。為了使所選的深度學習基線和 GBRT 之間具有顯著的可比性,該研究在相同的數據集上評估了所有模型,數據集如下表 1 所示:左邊提供了關于用來評估模型數據集,而右邊則列出了各自的實驗規范:
問題公式化。時間序列預測問題,就監督學習而言,時間序列預測可以表述為:給定一個集合 和一個集合 ,經過一系列假設后,得到如下期望損失最小化模型:
GBRT
GBRT 模型,特別是 XGBoost 實現,其優點是易于應用,而且在結構化數據上特別成功。但是當涉及時間序列預測的初始(naive)實現時,GBRT 模型失去了很大一部分靈活性,因為它們沒有被投射到基于窗口的回歸問題中,而是被配置為適合大部分時間序列作為完整且連續的數據點序列來預測時間序列的后續和剩余測試部分。
與上述初始實現不同,該研究通過將時間序列重新配置為窗口輸入,并在多個訓練實例(窗口)上進行訓練,以模擬成功的時間序列預測模型中使用的輸入處理行為,為此該研究定義了一個可調窗口 。這種基于窗口的 GBRT 模型輸入設置如圖 1 所示:
第一步是使用變換函數 將典型的 2D 訓練實例(時間序列輸入窗口)變換為適合 GBRT 的 1D 形狀向量(扁平窗口)。該函數將所有 w 實例的目標值 連接起來,然后將最后一個時間點實例 t 的協變量向量附加到輸入窗口 w 中,表示為 。
基于窗口的 GBRT 輸入設置極大地提高了其預測性能,因為 GBRT 模型現在能夠掌握數據的底層時間序列結構,并且現在可以被認為是先進 DNN 時間序列預測模型的適當機器學習基線。另一方面,簡單配置的 GBRT 模型 是一個簡單的逐點回歸模型,將時間點 的協變量作為輸入,預測單一目標值 、 為同一時間點訓練損失如下:
實驗結果
3.1 單變量時間序列的結果
下表 2 總體結果表明,除了 traffic 預測外,基于窗口的 GBRT 具有較強的競爭力。另一方面,具有傳統配置的預測模型(例如 ARIMA 和 GBRT(Naive))的表現遠遠優于預期。
而在 electricity 預測方面,基于窗口的 GBRT 在所有模型中均顯示出最佳的 RMSE 性能,其在 WAPE 和 MAE 方面的性能僅優于 2016 年推出的 TRMF,基于注意力的 DARNN 模型表現較差。關于 exchange rate 任務,LSTNet(以 w = 24 重新實現)和 TMRF 顯示出相當強的結果,優于基于窗口的 GBRT 基線。
在不考慮時間預測器的情況下,traffic 預測的結果是混合的,因此 DARNN 和 LSTNet 實現了 traffic 數據集的最佳結果,而對于 PeMSD7 數據集,基于窗口的 GBRT 基線在兩個方面優于 DNN 模型三個指標。然而,時間協變量的包含顯著提高了 GBRT 的性能(下表 3),因此,對于 traffic 預測,所有 DNN 方法,包括 DeepGlo [18] 和 STGCN(spatio-temporal traffic forecasting model ) [19],其在 PeMSD7 上實現了 6.77 的 RMSE,優于重新配置的 GBRT 基線。
下表 4 顯示了 LSTNet 與 GBRT(W-b) 的結果:
下表 5 中的結果表明 GBRT 的競爭力,但也表明基于 transformer 的模型相當強大,例如 TFT 超過了提升回歸樹性能。然而,作為一個例外,TFT 構成了本研究中唯一一個始終優于 GBRT 的 DNN 模型,而 DeepAR 和 DeepState 等概率模型在這些單變量數據集上的表現優于其他模型。
3.2 多元數據集
下表 6 中為 DARNN 與基于窗口 GBRT 比較:簡單、配置良好的 GBRT 基線可以超越 DNN 框架。
從下表 7 可以看出,即使是專門為某一預測任務設計的 DNN 模型,也沒有達到預期效果。相反,DAQFF 的性能比簡單的基于窗口、特征工程的梯度提升回歸樹模型更差。在本實驗中,值得注意的是,即使是傳統應用預測意義上的 GBRT 模型也能在 air quality 數據集上提供更好的結果。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的做时间序列预测有必要用深度学习吗?梯度提升回归树媲美甚至超越多个DNN模型...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: w7怎么用光盘装系统 w7光盘如何安装系
- 下一篇: 重庆小面是怎么做的呀?