论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract
????????空間時間序列預測問題出現在廣泛的應用中,如環境和交通問題。由于存在特定的空間、短期和長期模式,以及維度的詛咒,這些問題具有挑戰性。
在本文中,我們提出了一個用于大規模空間時間序列預測問題的深度神經網絡框架。我們明確設計了捕捉各種類型模式的神經網絡架構。
- 在預處理中,應用時間序列分解方法將短期、長期和空間模式分別送入神經網絡的不同組成部分。
- 模糊聚類方法根據時間序列殘差的相似性找到相鄰時間序列的聚類;因為它們可以成為空間時間序列的有意義的短期模式。
- 在神經網絡結構中,多核卷積層的每個核被應用于時間序列的聚類,以提取鄰近區域的短期特征。
- 卷積層的輸出按趨勢進行串聯,然后用卷積-LSTM層來捕捉更大區域內的長期模式。
- 為了在面臨數據缺失時做出穩健的預測,一個無監督的預訓練去噪自動編碼器在一個微調步驟中重建了模型的輸出。
實驗結果表明,該模型在交通流量預測數據集中的表現優于基線和最先進的模型。
、
1 introduction & literature revies
?????????時間序列數據出現在廣泛的領域,例如工程、醫學、金融和經濟學。 各種類型的統計和機器學習技術已應用于時間序列分析。
????????最近,已經研究了幾種新的可擴展時間序列分析,例如預測 [1]、異常檢測 [2]、分類 [3] 和聚類 [4]。 他們展示了這些在大規模問題上相對于傳統時間序列技術的性能提升。
????????此外,當相鄰時間序列之間存在空間依賴性時,就會出現空間時間序列問題。 時空數據出現在電網 [5]、負荷需求預測 [6]、天氣預報 [7]、智慧城市應用 [8] 和交通系統(如交通流量預測 [9]、[10])的不同領域 。
????????交通流量預測是智能交通系統的重要組成部分之一,也是最具挑戰性的時空問題之??一,因為它涉及到循環和非循環模式以及所涉及的物理動力學。
????????交通流量預測可以幫助旅行者做出更好的決策并改善交通管理,同時減少交通擁堵和空氣污染。
????????最近,智能設備增加了交通流量預測問題在我們日常生活中的作用,這有助于人們規劃旅行并找到最有效的路線。隨著新的傳感、計算和網絡技術的出現,例如相機、傳感器、雷達、感應回路和 GPS 設備,大量數據很容易獲得 [11]。這些越來越大的數據集意味著大數據和處理這些數據的技術在未來交通系統的成功中發揮著關鍵作用[12]。
????????因此,為了提高交通系統的性能,研究人員有動力利用新的時空數據驅動技術并設計能夠處理大量數據的可擴展算法,例如深度神經網絡,[1],[13]。 ?
1.1 背景
????????從 1970 年代 Gazis 和 Knapp [14] 的原始工作開始,已經有許多研究將時間序列預測技術應用于交通流量預測問題,包括參數方法【例如自回歸綜合移動平均 (ARIMA) [15] 和 季節性 ARIMA [16] 】、和統計技術【例如貝葉斯分析 [17]、馬爾可夫鏈 [18] 和貝葉斯網絡 [19]】。
???????? 然而,由于這些模型都需要先驗假設,缺乏處理缺失數據、噪聲數據、異常值的能力,以及維度災難,模型存在一些限制。
????????淺層架構神經網絡能夠處理高維數據,但無法捕獲高階計算復雜度。
? ? ? ? 而深度神經網絡在大規模問題上的卓越性能,它們成為應用于大規模多變量時間序列預測問題的替代技術。
????????最近,已經有很多嘗試為多變量時間序列預測問題設計深度學習模型。
????????與我們相關的主要工作提出了一種堆疊式自動編碼器(SAE)模型來學習交通流特征并說明 SAE 模型與多層感知器 [1] 相比的優勢。在 [20] 中,他們提出了在神經網絡的頂層進行多任務學習SAE。
????????[21]提出了一種由多層受限波爾茲曼機組成的深度信念網絡(DBN)。
????????在[22]中,將四類全連接神經網絡的集合應用于時間序列預測問題。
????????在 [23] 中,針對時間序列預測問題提出了一種帶有支持向量回歸的 DBN 集合,用于聚合輸出。
????????然而,在完全連接的神經網絡中,大小隨著輸入大小的增加呈指數增長,因此模型的收斂在計算上是昂貴且具有挑戰性的。
????????卷積神經網絡 (CNN) 提取各種類型輸入數據的特征,例如圖像、視頻和音頻。
????????權重共享是 CNN 的主要特征,它減少了深度神經網絡模型中的參數數量。這些屬性通過降低參數的復雜性來提高學習算法的性能。[24]檢查了深度 CNN 在多變量時間序列預測中的性能;
????????在[25]中,交通流量數據的時空關系被表示為圖像。 CNN 模型用于從圖像進行訓練并預測大型交通網絡中的速度。
????????在 [26] 中,他們使用卷積層和集成學習研究了空間時間序列數據的類圖像表示。
????????卷積層考慮歐幾里得空間中的空間結構,它可能會丟失一些關于圖結構數據的信息[27]。作為一種替代方法,在工作 [28] 之后,使用雙向擴散卷積循環網絡 [29] 捕獲空間依賴性。它們說明了時間序列數據捕獲時間序列之間空間關系的圖形結構表示。
????????此外,在存在時間數據的情況下,RNN在時間序列預測中表現出出色的性能 [30]。通過采用長短期模型(LSTM)[31] 解決了深層多層感知器和遞歸神經網絡問題中的梯度消失問題,該模型顯著改進了時間序列預測 [32]、交通速度預測 [33] 和交通流量估計[34]。 ?
????????卷積神經網絡可以在空間數據上表現出出色的性能,而遞歸神經網絡在時間數據問題上具有優勢;時空問題結合了這兩者。
????????在 [35] 中,他們提出了用于天氣預報問題的卷積- LSTM 層,其中考慮了時空序列。
????????[36]提出了一種用于多變量時間序列預測的卷積深度學習模型。他們提出了輸入時間序列的顯式分組和使用錯誤反向傳播的隱式分組。
????????在 [37] 中,他們對下游和上游數據使用 CNN-LSTM 模型來捕獲交通流量數據之間的物理關系。卷積層之后是用于下游和上游交通流量數據的 LSTM 層。
????????在 [38] 中,他們闡述了一個 CNN 和門控 CNN,然后是用于時空數據的注意力層。
???????? CNN-LSTM 在學習時空特征方面的能力在上面的作品中得到了說明。然而,沒有任何關于設計具有各種組件的神經網絡架構,來單獨捕獲時空模式 的分析。 ?
1.2 本文貢獻
????????在上述工作中,研究了空間時間序列預測,提出了各種類型的卷積和遞歸神經網絡層。然而,時空數據有其特定的模式,這促使我們使用空間和時間序列分解,并在設計高效的神經網絡架構時明確考慮各種類型的模式。
????????在設計深度神經網絡架構時應考慮時空數據中的一些挑戰。在時空數據中,時間序列殘差不僅不是無意義的噪聲,而且還是與依賴空間的時間序列的物理性質和動力系統有關。
????????此外,卷積層可以捕獲空間和短期模式,但在空間特征上滑動卷積核會錯過一些網絡結構。在存在長期模式的情況下,LSTM 層在預測問題方面表現出出色的性能,因為它可以單獨捕獲去趨勢數據。
????????此外,一個具有挑戰性的問題是解決時間序列預測問題中丟失的少量時空數據。
????????在本文中,我們解決了在設計深度神經網絡時顯式分解時空模式的問題,并說明了它在大規模交通流預測問題上的性能改進
????????論文的貢獻描述如下:
? 我們說明了一種在空間多變量時間序列預測問題中明確考慮深度神經網絡架構中各種類型模式的方法。
? 我們描述了一種基于動態時間扭曲(DTW)的聚類方法和時間序列分解,目的是找到具有相似時間序列殘差的緊湊區域。
? 針對空間時間序列數據設計了多核卷積層,以保持時間序列數據的空間結構,提取短期和空間模式。它后面是一個卷積 LSTM 組件,用于從趨勢中捕獲長期模式,以及一個預訓練的去噪自動編碼器,以對缺失數據進行穩健的預測。
? 分析交通流數據中的空間和時間模式,并說明所提出的模型相對于基線和最先進的深度神經網絡的性能增益,用于交通流預測、捕獲有意義的時間序列殘差和對缺失 數據的穩健預測。
本文的其余部分如下,在第二節中,我們定義了問題。第三節介紹了所提出模型的技術背景。在第四節中,說明了擬議的框架,隨后是第五節中討論的工作結果和結論。
2 問題定義
? ? ? ? 時間序列數據是一串連續的測量值? ?是位置i在時刻t的觀測值
? ? ? ? 與此同時,位置i在每個時刻都有k個特征:
? ? ? ? 時空數據是由n個位置點組成的多元時間序列數據,我們也可以表示為?
?????????給定 X 作為一個區域中所有時間序列的集合,空間時間序列預測問題被轉換為回歸問題。
? ? ? ? 假設我們可以看到過去w步的時間序列(即,),我們的目標是預測未來h步的時間序列(,)
????????時間窗口w用于僅考慮一小部分以前的時間數據來預測未來數據。
???????? 在等式(1)中,最優參數 θ* 是預測時間序列數據的最佳模型。 在神經網絡中,θ* 是模型的權重,優化算法通過解決以下非凸優化問題來最小化非線性損失函數 f(., ., .),
?????????
?3 Preliminary
3.1 DTW
DTW 筆記: Dynamic Time Warping 動態時間規整 (&DTW的python實現)_UQI-LIUWJ的博客-CSDN博客
3.2?Fuzzy Hierarchical Clustering 模糊層次聚類
機器學習筆記: 聚類 模糊聚類與模糊層次聚類(論文筆記 Fuzzy Agglomerative Clustering :ICAISC 2015)_UQI-LIUWJ的博客-CSDN博客
3.3? 卷積層
機器學習筆記:CNN卷積神經網絡_UQI-LIUWJ的博客-CSDN博客
3.4 convolution-LSTM
機器學習筆記 :LSTM 變體 (conv-LSTM、Peephole LSTM、 coupled LSTM、conv-GRU)_UQI-LIUWJ的博客-CSDN博客
3.5 denoising stacked autoencoder
機器學習筆記:auto encoder_UQI-LIUWJ的博客-CSDN博客
4 方法部分
????????在本節中,我們描述了針對空間時間序列預測問題提出的深度學習框架的架構。 所提出的框架如圖(1)所示。 網絡結構表示相鄰傳感器之間的距離,時空數據包括每個傳感器的時間序列數據 傳感器。
?
4.1 預處理部分
????????如果對時間序列用時間序列分解方法,我們可以生成 X = (S, T, R) 的三個時間序列分量,分別是時間序列的季節性、趨勢和殘差。
???????? 在空間時間序列數據中,殘差可能不僅僅是噪聲。 例如,在交通網絡中,時間序列殘差可能是由交通網絡的交通演變引起的,它們是相鄰時間序列之間有意義的模式,在第 5 節實驗結果中進行了分析。
?????????為了將算法 (2) 應用于時間序列殘差,我們考慮了集合?G ,用于地理上最近的傳感器鄰居。算法從集合 G 中更新兩個時間序列之間的single-linkage距離。
????????由于某些傳感器可能影響多個區域集群,因此聚類算法的輸出會發現每個傳感器與其相似集群的模糊隸屬關系。每個傳感器 xi 都有屬于某個集群 cj ∈ C的隸屬度。
????????我們說兩個時間序列 xi 和 xj 是相似的,如果兩個時間序列在某個時間偏移上具有相似的模式,或者彼此之間的距離為零。因此,對于給定的距離函數 τ (., .),(我們考慮 DTW),模糊層次聚類算法通過找到其組成元素之間距離最小的集群,來找到具有相似殘差時間序列的傳感器集群。
????????為了表示相鄰時間序列之間的短期相似性,我們在訓練數據上使用滾動窗口并獲得相應 DTW 距離的平均值。滾動窗口查找相鄰區域的短期時間窗口之間的相似性。
????????為了減少計算時間,僅當相鄰時間序列之間存在高度交互時才應用滾動窗口。例如,在交通流量數據中,相鄰傳感器之間的交互會增加高峰時間和擁堵時間段。
????????對空間時間序列應用具有上述算法 ,基于 DTW 距離找到時間序列的模糊聚類。
4.2 神經網絡架構
?
? ? ? ? 時間序列殘差是第一個神經網絡的輸入,它已經去趨勢了,表示為?(s為空間點數量,w為滑動窗口長度,k為特征維度)
? ? ? ? 然后應用卷積組件從時間序列殘差中提取模式。 ??對于給定的一組時間序列 X,一般卷積核在第一和第二軸上滑動。 然而,由于傳感器可以具有空間結構,就像交通網絡中的傳感器一樣,在傳感器上滑動一個卷積核并不能保持網絡的結構。 此外,每個傳感器的時間序列殘差僅依賴于網絡中的小區域。 因此,我們提出了一個多核卷積層,它接收集分簇信息和殘差時間序列數據。
? ? ? ? 對于某個簇i,我們設計了一個卷積核Wi,如果時間序列j∈Ci,那么≠0.換句話說,簇i對應的卷積核Wi中可訓練變量的數量為|Ci|×w×k?
? ? ? ? 對于每一個簇,我們都可以獲得一個隱藏單元(pool是池化)
????????幾個卷積-RELU-Pooling 層從每個鄰域的時間序列殘差中提取短期和空間模式(短期是因為卷積核只能看到時間窗口為w以內的部分,空間模式是分簇信息)
? ? ? ? 第l層的輸出會經過全連接層后,拼接起來(其中)
? ? ? ? 對于長期特征,我們將時間序列分解之后的趨勢部分在最后一個維度上拼接到上?()
????????與殘差不同,趨勢可以代表時空數據的全局變化。 因此,我們考慮 LSTM 單元來來學習長期模式。 于是我們使用一個二維卷積 LSTM 層。??
? ? ? ? Conv-LSTM 接受輸入,然后使用大小為(a=s,b≤v)的卷積核進行卷積操作
?????????最后,將季節性的部分concat 進來,然后送入全連接層。得到輸出其中h是預測窗口大小
? ? ? ? ?一個挑戰是當存在丟失的,或者有噪音的數據時,如何得到一個魯棒的預測。于是我們在上面的?之后接一個auto-encoder。
?
?5 實驗部分
5.1? 時間序列分解
?5.2? 擁堵的傳遞
在圖 6 中,我們檢查了三個觀測點的速度趨勢。? 交通網絡中的擁塞傳播說明了高速公路中相鄰傳感器之間的關系,如圖 6 所示,用于三個連續傳感器的流量數據。 擁塞以近 20 分鐘的延遲在此傳感器上傳播。
對于更大的區域,在圖 7 中,13 個連續傳感器的速度在圖像中表示。 高峰時段的速度降低以較深的顏色呈現。 它說明速度的降低在鄰近地區是相似的。
?
?5.3 模糊層次聚類
????????在對時間序列數據進行預處理后,有 597 個傳感器在 6 個月內擁有完整的數據。模糊聚類找到每個傳感器對聚類的隸屬值。在模糊隸屬度矩陣中,我們考慮閾值為 0.1。所有成員值大于 0.1 的傳感器都將被視為集群的成員。
????????我們還設定簇的平均大小小于 10 英里。當平均值大于 10 時,聚合聚類停止。
????????模糊層次聚類方法的結果有 64 個聚類,其中平均元素數為 9.7,標準差為 4.2,最小聚類大小為 3,最大聚類大小為 14。最小和最大聚類的長度分別為 0.3 英里和 32.1 英里。并且有 53 個傳感器出現在一個以上的集群中,占傳感器總數的近 10%。
? ? ? ?
?5.4 預測準確度
?
?
總結
以上是生活随笔為你收集整理的论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记 :LSTM 变体 (con
- 下一篇: 论文笔记:Spatial-Tempora