论文笔记: Modeling Extreme Events in Time Series Prediction
2019 KDD
0 摘要
????????時(shí)間序列預(yù)測(cè)是數(shù)據(jù)挖掘中一個(gè)深入研究的課題。盡管取得了相當(dāng)大的改進(jìn),但最近基于深度學(xué)習(xí)的方法忽略了極端事件的存在,這導(dǎo)致將它們應(yīng)用于實(shí)時(shí)序列時(shí)性能較弱。
????????極端事件是罕見且隨機(jī)的,但在許多實(shí)際應(yīng)用中確實(shí)發(fā)揮了關(guān)鍵作用,例如預(yù)測(cè)金融危機(jī)和自然災(zāi)害。
????????在本文中,我們探討了提高深度學(xué)習(xí)建模極端事件以進(jìn)行時(shí)間序列預(yù)測(cè)的能力。
????????我們首先發(fā)現(xiàn)深度學(xué)習(xí)方法的弱點(diǎn)源于傳統(tǒng)形式的二次損失函數(shù)。為了解決這個(gè)問題,我們從極值理論中汲取靈感,開發(fā)了一種新的損失函數(shù),稱為極值損失(EVL),用于檢測(cè)未來發(fā)生的極端事件。
????????此外,我們建議使用記憶網(wǎng)絡(luò)來記憶歷史記錄中的極端事件。通過將 EVL 與經(jīng)過調(diào)整的記憶網(wǎng)絡(luò)模塊相結(jié)合,我們實(shí)現(xiàn)了一個(gè)端到端的框架,用于極端事件的時(shí)間序列預(yù)測(cè)。
????????通過對(duì)合成數(shù)據(jù)和兩個(gè)真實(shí)的股票和氣候數(shù)據(jù)集的廣泛實(shí)驗(yàn),我們驗(yàn)證了我們框架的有效性。此外,我們還通過進(jìn)行幾個(gè)額外的實(shí)驗(yàn),為我們提出的框架中的超參數(shù)提供了適當(dāng)?shù)倪x擇。
1 introduction
????????從歷史上看,傳統(tǒng)方法,如自回歸移動(dòng)平均 (ARMA) [46] 和非線性自回歸外生 (NARX) [31] 使用具有少量參數(shù)的統(tǒng)計(jì)模型來發(fā)掘時(shí)間序列數(shù)據(jù)中的模式。
????????最近,隨著深度神經(jīng)網(wǎng)絡(luò) (DNN) 在圖像分類 [28] 和機(jī)器翻譯 [4] 等許多領(lǐng)域的成功,許多基于 DNN 的技術(shù)隨后被開發(fā)用于時(shí)間序列預(yù)測(cè)任務(wù),取得了顯著的進(jìn)步,優(yōu)于傳統(tǒng)方法 [11, 49]。
?
????????作為這些模型的基本組成部分,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 結(jié)構(gòu)的主要優(yōu)點(diǎn)之一是它能夠?qū)r(shí)間模式進(jìn)行深度非線性建模。
????????在最近的文獻(xiàn)中,RNN的一些變體表現(xiàn)出更好的經(jīng)驗(yàn)性能,例如著名的長(zhǎng)短期記憶 (LSTM) [22, 36, 50] 和門控循環(huán)單元 (GRU) [10],而后者在更小和更簡(jiǎn)單的數(shù)據(jù)集上更有效[10]。
????????然而,觀察到大多數(shù)先前研究的 DNN 在處理數(shù)據(jù)不平衡方面存在問題 [15、42、44]。
????????讓我們考慮一個(gè)二進(jìn)制分類任務(wù),其訓(xùn)練集包括 99% 的正樣本和只有 1% 的負(fù)樣本。
????????這種數(shù)據(jù)不平衡可能會(huì)將任何分類器帶入以下兩種意外情況中的任何一種:
- 該模型幾乎不學(xué)習(xí)任何模式,只是選擇將所有樣本識(shí)別為正樣本。(欠擬合)
- 該模型完美地記住了訓(xùn)練集,而它對(duì)測(cè)試集的泛化能力很差。? (過擬合)
????????在時(shí)間序列預(yù)測(cè)中,時(shí)間序列中的不平衡數(shù)據(jù)(或極端事件)也對(duì)深度學(xué)習(xí)模型有不好的影響。
????????直觀地說,時(shí)間序列中的極端事件通常具有極小或極大的值、不規(guī)則和罕見的事件 [24]。
????????????????
????????作為其對(duì)深度學(xué)習(xí)模型有害性的實(shí)證證明,我們訓(xùn)練一個(gè)標(biāo)準(zhǔn) GRU 來預(yù)測(cè)一維時(shí)間序列,其中某些閾值用于將一小部分?jǐn)?shù)據(jù)集標(biāo)記為極端事件(圖 1 中的水平虛線)。
????????正如上圖清楚地表明的那樣,學(xué)習(xí)模型確實(shí)會(huì)遇到前面討論的兩種情況:
- 在圖 1(a) 中,它的大部分預(yù)測(cè)都受到閾值的限制,因此它無法識(shí)別未來的極端事件,我們將其稱為欠擬合現(xiàn)象。
- 在圖 1(b) 中,盡管模型正確地學(xué)習(xí)了訓(xùn)練集中的極端事件,但它在測(cè)試集上的表現(xiàn)很差,我們將此稱為過擬合現(xiàn)象。
????????以前,人們總是傾向于容忍欠擬合現(xiàn)象,因?yàn)槟P驮跍y(cè)試集上仍然具有平均可容忍的性能。
????????然而,如果時(shí)間序列預(yù)測(cè)模型能夠以合理的預(yù)測(cè)識(shí)別未來的極端事件,那將是非常有價(jià)值的。通過在許多現(xiàn)實(shí)世界案例中對(duì)極端事件進(jìn)行更準(zhǔn)確的建模,預(yù)測(cè)模型有望通過對(duì)未來事件(如極端風(fēng) [35] 或金融危機(jī) [41])發(fā)出警報(bào)來幫助做出有影響力的決策。
?????????基于上述動(dòng)機(jī),在本文中,我們專注于提高 DNN 在預(yù)測(cè)具有異常的時(shí)間序列方面的性能。
????????首先,除了上面的經(jīng)驗(yàn)驗(yàn)證之外,我們還對(duì) DNN 在預(yù)測(cè)具有極端事件的時(shí)間序列時(shí),容易陷入欠擬合或過擬合的現(xiàn)象進(jìn)行了分析。通過極值理論 (EVT) 的視角,我們觀察到主要原因在于先前選擇的損失函數(shù),它天生缺乏對(duì)極端事件進(jìn)行精細(xì)建模的能力。因此,我們提出了一種稱為極值損失 (EVL) 的新型損失函數(shù),以改進(jìn)對(duì)極端事件的預(yù)測(cè)。
????????此外,我們?cè)谟洃浘W(wǎng)絡(luò)[45]的幫助下,提供了一種神經(jīng)架構(gòu)來記憶歷史數(shù)據(jù)的極端事件。與我們提出的 EVL 一起,構(gòu)建了我們的端到端框架,以便更好地預(yù)測(cè)具有極端事件的時(shí)間序列數(shù)據(jù)
1.1 主要貢獻(xiàn)有?
- 提供了關(guān)于為什么深度神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)具有極端事件的時(shí)間序列數(shù)據(jù)時(shí)會(huì)出現(xiàn)欠擬合或過擬合現(xiàn)象的分析。
- 我們提出了一種基于極值理論的、稱為極值損失(EVL)的新型損失函數(shù),它可以更好地預(yù)測(cè)極端事件的未來發(fā)生。
- 我們提出了一種全新的基于記憶網(wǎng)絡(luò)的神經(jīng)架構(gòu)來記憶歷史上的極端事件,從而更好地預(yù)測(cè)未來的極端值。
- 實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的框架與最先進(jìn)的技術(shù)相比在預(yù)測(cè)準(zhǔn)確性方面的優(yōu)越性。
2 preliminary
2.1 時(shí)間序列預(yù)測(cè)
假設(shè)有 N 個(gè)固定長(zhǎng)度 T 的序列。 對(duì)于第 i 個(gè)序列,時(shí)間序列數(shù)據(jù)可以描述為,
這里和分別是t時(shí)刻的輸入和輸出
?對(duì)于一維時(shí)間序列預(yù)測(cè),我們有,∈R,且=
出于方便起見,我們記
?????????時(shí)間序列預(yù)測(cè)的目標(biāo)是,給定觀察值 和未來輸入 ,如何預(yù)測(cè)未來的輸出。
????????假設(shè)在給定輸入 xt 的情況下,模型在時(shí)間 t 預(yù)測(cè) ot ,優(yōu)化目標(biāo)可以寫成:
?2.2 極端事件
? ? ? ? ? 盡管像 GRU 這樣的 DNN 在預(yù)測(cè)時(shí)間序列數(shù)據(jù)方面取得了顯著的進(jìn)步,但正如我們?cè)趇ntroductio部分所展示的那樣,如果使用不平衡的時(shí)間序列進(jìn)行訓(xùn)練,該模型往往會(huì)陷入過擬合或欠擬合。 我們將這種現(xiàn)象稱為極端事件問題。 為了正式理解這一現(xiàn)象,引入一個(gè)輔助指標(biāo)序列 會(huì)很方便:
????????
?????????其中大常數(shù) ?1, ?2 > 0 稱為閾值。 對(duì)于時(shí)刻t,如果 vt = 0,我們將輸出 yt 定義為正常事件。 如果 vt > 0,我們將輸出 yt 定義為右極端事件。 如果 vt < 0,我們將輸出 yt 定義為左極端事件。
2.2.1 長(zhǎng)(重)尾分布??Heavy-tailed Distributions
????????以前的工作注意到現(xiàn)實(shí)世界數(shù)據(jù)的經(jīng)驗(yàn)分布似乎總是長(zhǎng)尾的 [37]。
????????直觀地說,如果說隨機(jī)變量 Y符合長(zhǎng)尾分布,那么它通常具有不可忽略的大值(大于閾值)的概率 [37]。
????????事實(shí)上,包括高斯、泊松在內(nèi)的大多數(shù)廣泛應(yīng)用的分布都不是長(zhǎng)尾分布,而是輕尾分布。 只有少數(shù)參數(shù)分布是長(zhǎng)重尾分布,例如 帕累托分布和對(duì)數(shù)柯西分布。
????????因此,使用輕尾參數(shù)分布進(jìn)行建模會(huì)在數(shù)據(jù)的尾部帶來不可避免的損失。(因?yàn)閷?shí)際數(shù)據(jù)大體上是長(zhǎng)尾分布)
???????? 這樣的陳述可以用圖2(a)說明性地呈現(xiàn),其中我們選擇了一個(gè)輕尾截?cái)嗾龖B(tài)分布-尾分布很好地?cái)M合了中心周圍的數(shù)據(jù),但尾部的不準(zhǔn)確性是不能容忍的。
2.2.2 極值理論?Extreme Value Theory
????????從歷史上看,極值理論 (EVT) 在研究這些重尾數(shù)據(jù)方面更進(jìn)一步。 EVT 研究觀察樣本中最大值的分布 [43]。
????????正式地說,假設(shè)有 T 個(gè)隨機(jī)變量 y1, 。 . . ,yT 是從分布 Fy中獨(dú)立同分布地采樣的,那么最大值的分布是,
?????????
?????????為了得到P{max(y1,····,yT)≤y}的非零形式,以前的研究是通過對(duì)最大值進(jìn)行線性變換來進(jìn)行的。
????????作為 EVT 的一個(gè)基本結(jié)果,以下定理表明,Y 在線性變換后的分布始終限于少數(shù)情況。
定理2.1:如果 Y 上存在一個(gè)線性變換,使得方程 4 中的分布不退化為 0。那么變換后的非退化分布 G(y) 的類必須是以下分布:
????????
?????????通常將 G(y) 形式稱為廣義極值分布,以 γ ≠ 0 作為極值指標(biāo)。 這樣的陳述有時(shí)也被認(rèn)為是最大數(shù)定律[27]。 事實(shí)上,上面的定理對(duì)超過某個(gè)固定閾值的觀察有一個(gè)自然的擴(kuò)展,如下所示,這將在下一部分中有用。
2.2.3 建模尾部分布
????????以前的工作擴(kuò)展了上述定理以模擬真實(shí)世界數(shù)據(jù)的尾部分布
????????
? ? ? ? 這里是一個(gè)很大的閾值
?3 極端事件帶來的問題
3.1 優(yōu)化有的經(jīng)驗(yàn)分布
????????我們進(jìn)一步研究了極端事件對(duì)時(shí)間序列預(yù)測(cè)的影響。
????????為了簡(jiǎn)單起見,我們只關(guān)注一個(gè)序列,即 。
????????
???????? 從概率的角度來看,方程2中損失函數(shù)的最小化本質(zhì)上等價(jià)于似然P(yt |xt)的最大化。
????????根據(jù) Bregman 的理論 [5, 40],最小化這種平方損失總是具有方差 τ 的高斯形式,即,其中 θ 是 預(yù)測(cè)模型的參數(shù),O是模型的輸出。
? ? ? ? 于是方程2可以被等價(jià)替換為
?????????
?根據(jù)貝葉斯理論,我們有:
?????????通過假設(shè)模型具有足夠的參數(shù) θ [23, 29] 的學(xué)習(xí)能力,將產(chǎn)生 P(Y |X) 的最佳近似值。
????????值得注意的是,我們對(duì)參數(shù)θ學(xué)習(xí)能力的假設(shè)是先前研究中廣泛采用的假設(shè) [3, 21],并且可以在實(shí)踐中使用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)。
參數(shù)θ優(yōu)化后,Y的經(jīng)驗(yàn)分布需要滿足以下形式:
?是未知的標(biāo)準(zhǔn)差
???????考慮到它與具有高斯核的核密度估計(jì)器 (KDE) 的相似性 ,?我們可以得出一個(gè)中間結(jié)論:如果序列中數(shù)據(jù)的真實(shí)分布是重尾的,那么這種模型的性能會(huì)相對(duì)較差 (因?yàn)檎龖B(tài)分布是輕尾的)
3.2? 為什么DNN會(huì)遇到問題?
????????如上所述,具有最優(yōu)參數(shù)的學(xué)習(xí)模型的輸出分布可以被視為具有高斯核的 KDE(方程 9)。
???????? 由于非參數(shù)核密度估計(jì)器僅適用于足夠的樣本【非參數(shù)化是因?yàn)榉匠?中分布是由觀測(cè)值yt決定給的】,因此預(yù)計(jì)性能會(huì)在數(shù)據(jù)的尾部降低(尾部采樣的數(shù)據(jù)點(diǎn)將相當(dāng)有限 [7])。
???????? 極值的范圍通常很大,很少有樣本,因而很難覆蓋整個(gè)范圍。
????????如圖 2(b) 所示,我們從真實(shí)分布中采樣 yt ,并用高斯核擬合 KDE。
????????如圖所示,由于只有兩個(gè) yt > 1.5 的樣本,擬合的 KDE 峰的形狀在這些點(diǎn)周圍不一致(會(huì)隆起)。
????????此外,由于絕大多數(shù)樣本以 0 為中心,因此 KDE 估計(jì)的原點(diǎn)周圍的概率密度往往遠(yuǎn)高于真實(shí)分布。
? ? ? ? ?我們假設(shè)x1,x2是兩個(gè)測(cè)試數(shù)據(jù),相應(yīng)的輸出應(yīng)該是o1=0.5,o2=1.5
? ? ? ? 假設(shè)我們已經(jīng)充分地學(xué)習(xí)了P(X)和P(X|Y),那么我們有
????????
用相似的辦法,我們有
?????????因此,在這種情況下,來自DNN的預(yù)測(cè)值總是有界的,這使模型無法預(yù)測(cè)極端事件,即導(dǎo)致欠擬合現(xiàn)象
????????另一方面,正如我們?cè)谙嚓P(guān)工作中所討論的那樣,有幾種方法建議在訓(xùn)練期間通過增加相應(yīng)訓(xùn)練損失的權(quán)重來強(qiáng)調(diào)極端點(diǎn)。
???????? 在我們的公式中,這些方法相當(dāng)于在擬合 KDE 時(shí)在數(shù)據(jù)集中多次重復(fù)極值點(diǎn)。 其結(jié)果如圖 2(b)中的虛線所示。
? ? ? ? 于是從 結(jié)果上,我們有 ?
????????
? ? ? ? 以及?
????????直觀地說,上面的不等式表明,隨著極端事件的估計(jì)概率相加,對(duì)正常事件的估計(jì)也會(huì)同時(shí)變得不準(zhǔn)確。 因此,測(cè)試集中的正常數(shù)據(jù)很容易被誤分類為極端事件,從而標(biāo)志著過擬合現(xiàn)象。
????????正如我們所看到的,DNN 中的極端事件問題主要是由于觀測(cè)值 yt 的尾部沒有足夠的先驗(yàn)。
- 通過最大化似然性可能導(dǎo)致 yt 的非參數(shù)估計(jì),這很容易導(dǎo)致欠擬合問題。
- 另一方面,如果我們?cè)黾舆@些大值的權(quán)重,DNN 很容易出現(xiàn)過擬合問題。
為了緩解 DNN 中的這些問題,我們將提供一個(gè)“優(yōu)雅”的解決方案,旨在為 DNN 在預(yù)測(cè)時(shí)間序列數(shù)據(jù)時(shí)對(duì)極端事件施加先驗(yàn)。 ?
4 預(yù)測(cè)有極端事件的時(shí)間序列
????????為了將先驗(yàn)信息強(qiáng)加于 DNN 觀察的尾部,我們關(guān)注兩個(gè)因素:記憶極端事件和建模尾部分布。
????????對(duì)于第一個(gè)因素,我們建議使用記憶網(wǎng)絡(luò)來記憶歷史上極端事件的特征,對(duì)于后一個(gè)因素,我們建議對(duì)觀察結(jié)果施加近似的尾分布,并提供一種稱為極值損失(EVL)的新分類。 最后,我們將這兩個(gè)因素結(jié)合起來,介紹了預(yù)測(cè)具有極值的時(shí)間序列數(shù)據(jù)的完整解決方案。
4.1? 記憶網(wǎng)絡(luò)模塊
? ? ? ??正如 Ghil 等人所指出的,時(shí)間序列數(shù)據(jù)中的極端事件通常表現(xiàn)出某種形式的時(shí)間規(guī)律性 [19]。
????????受此啟發(fā),我們建議使用記憶網(wǎng)絡(luò)來記憶這些極端事件,這被證明在識(shí)別歷史信息中包含的固有模式方面是有效的[45]。
???????? 首先,在我們的上下文中定義窗口的概念。
4.1.1 歷史窗口
????????對(duì)于每個(gè)時(shí)間步 t,我們首先?隨機(jī)采樣一系列窗口W = {w1,····,wM} ,其中 M 是記憶網(wǎng)絡(luò)的大小。
????????每個(gè)窗口 wj 正式定義為 wj = [xtj , xtj+1,····, xtj+Δ],其中 Δ 為滿足 0 < tj < t -Δ 的窗口大小。(換句話說tj+Δ也是比t要小的)
????????然后我們應(yīng)用 GRU 模塊將每個(gè)窗口嵌入到特征空間中。
???????? 具體來說,我們使用 wj 作為輸入,并將GRU最后一個(gè)隱藏狀態(tài)作為這個(gè)窗口的潛在表示,表示為。
????????同時(shí),我們應(yīng)用一個(gè)記憶網(wǎng)絡(luò)模塊來記憶每個(gè)窗口 wj 在 tj +Δ+1 中是否存在極端事件。 在實(shí)現(xiàn)中,我們通過 。
????????有關(guān)我們基于內(nèi)存網(wǎng)絡(luò)的模塊的概述,請(qǐng)參見圖 3(a)。 總之,在每個(gè)時(shí)間步 t,我們提出的架構(gòu)的內(nèi)存由以下兩部分組成: ?
- ?嵌入模塊(sj是歷史窗口j的潛在表示)
- 歷史模塊(qj是一個(gè)標(biāo)簽,表示窗口j之后的時(shí)刻,是否有極端事件)
?
?4.1.2 注意力機(jī)制
????????在這一部分中,我們進(jìn)一步將上面演示的模塊合并到我們的不平衡時(shí)間序列預(yù)測(cè)框架中。 在每個(gè)時(shí)間步 t,我們使用 GRU 來產(chǎn)生輸出值:
?
? ? ? ? 這里生成ht所使用的GRU和之前sj的生成所使用的GRU是一個(gè)GRU
????????正如我們之前所討論的,?的預(yù)測(cè)可能缺乏識(shí)別未來極端事件的能力。
????????因此,我們還要求我們的模型回溯其記憶,以檢查目標(biāo)事件與歷史上的極端事件之間是否存在相似性。? ? ? ? ?
????????為了實(shí)現(xiàn)這一點(diǎn),我們建議利用注意力機(jī)制 [4] 來達(dá)到我們的目的
????????
? ? ? ? (當(dāng)前時(shí)間序列和M個(gè)窗口時(shí)間序列之間的相似權(quán)重【權(quán)重之和為1】)
?????????最后,可以通過對(duì) qj (后一時(shí)刻是否有異常值)施加注意力權(quán)重來衡量之后是否會(huì)發(fā)生極端事件的預(yù)測(cè)。
???????? 我們的模型在時(shí)間步 t 的輸出計(jì)算為
?
?????????定義中 ut ∈ [?1, 1] 是對(duì)時(shí)間步 t 后是否會(huì)發(fā)生極端事件的預(yù)測(cè),b ∈ R+ 是尺度參數(shù)。
???????? 直觀地說,我們模型的主要優(yōu)勢(shì)在于,它可以在產(chǎn)生正常值和極端值的預(yù)測(cè)之間靈活切換。
????????當(dāng)當(dāng)前時(shí)間步長(zhǎng)與歷史上的某些極端事件存在相似性時(shí),ut 將通過設(shè)置 ut 非零來幫助檢測(cè)這樣的極端點(diǎn);而當(dāng)觀察到當(dāng)前事件與歷史幾乎沒有任何關(guān)系時(shí),則 輸出將選擇主要取決于 ,即標(biāo)準(zhǔn) GRU 門預(yù)測(cè)的值。
????????損失函數(shù)可以寫成公式 2 中定義的平方損失,以最小化輸出 ot 和觀測(cè)值 yt 之間的距離。
?4.2?極端值損失
????????雖然記憶網(wǎng)絡(luò)可以預(yù)測(cè)一些極端事件,但這種損失函數(shù)仍然存在極端事件帶來的問題。 因此,我們繼續(xù)對(duì)(14)式第二個(gè)因子進(jìn)行建模。
???????正如我們?cè)诘?3 節(jié)中討論的那樣,用平方損失作為優(yōu)化目標(biāo),會(huì)導(dǎo)致 yt 的非參數(shù)近似。 如果沒有強(qiáng)加的先驗(yàn) P(Y),經(jīng)驗(yàn)估計(jì) 的P^(Y) 很容易導(dǎo)致過擬合/欠擬合兩種現(xiàn)象。
???????? 因此,為了影響 P(Y) 的分布,我們建議對(duì)損失函數(shù)施加有尾數(shù)據(jù)的先驗(yàn)。
???????? 我們這里關(guān)注極端事件指標(biāo) ut 。 為簡(jiǎn)單起見,我們首先考慮右極端事件。(vt為0或1的情況)
?????
??????????為了將尾分布與 P(Y) 結(jié)合起來,我們首先考慮 Eq.6 中定義的近似值,它可以近似觀察值的尾分布。 在我們的問題中,對(duì)于觀測(cè)值 yt,近似值可以寫為
? ? ?
?????????正函數(shù) f 是尺度函數(shù)
????????此外,如果我們考慮一個(gè)二進(jìn)制分類任務(wù)來檢測(cè)正確的極端事件。 在我們的模型中,預(yù)測(cè)指標(biāo)是 ut ,它可以被視為的近似。 我們將近似值視為權(quán)重,并將它們添加到二進(jìn)制交叉熵中的每個(gè)項(xiàng)上, ?
????????
? ? ? ? 這里我覺得論文寫錯(cuò)了?第一個(gè)式子應(yīng)該是兩個(gè)正號(hào),這樣后一項(xiàng)才是全負(fù)號(hào)
? ? ? ? 其中涉及的幾個(gè)前面提到的式子:?
????????
? ? ? ??
????????
? ? ? ? 在(16)式中,?(正常事件的比例),同理P(vt=1)是右異常的比例
?????????γ是超參數(shù),是近似值的極值指標(biāo)。我們將提出的分類損失函數(shù)稱為極值損失(EVL)。
????????類似地,我們有二分類損失函數(shù),用于檢測(cè)未來是否會(huì)有左極端事件。結(jié)合兩個(gè)損失函數(shù),我們可以將EVL擴(kuò)展到vt ={?1,0,1}的情形。
????????正如我們?cè)诘?節(jié)中所討論的,如果在非參數(shù)估計(jì)器上沒有適當(dāng)?shù)卦O(shè)置權(quán)值,DNN將會(huì)遇到過擬合問題。
????????EVL的關(guān)鍵是利用極值理論,通過在觀測(cè)值的尾部分布上加上近似來找到合適的權(quán)值。
????????直觀地說,當(dāng)模型將事件識(shí)別為正常事件時(shí),β0項(xiàng)會(huì)增加對(duì)右極端事件的懲罰。同時(shí),也增加了模型識(shí)別可信度較低的極端事件時(shí)的懲罰。
????????(個(gè)人理解:因?yàn)槲覀兪菗p失函數(shù)加上EVL(ut),也就是減去,那么如果t點(diǎn)應(yīng)該是正常點(diǎn),那么β0是很大的,如果ut也是0的話,那么相當(dāng)于減去了β0;但是如果ut是1的話,相當(dāng)于減去了一個(gè)(0,1)的數(shù)的γ次方,再乘以β,那么此時(shí)的損失函數(shù)會(huì)比ut的時(shí)候要大;所以這一項(xiàng)的作用是乘法右極端事件)
4.3 優(yōu)化
????????在這一部分中,我們將為我們的框架提供優(yōu)化。
????????首先,為了將EVL與所提出的記憶網(wǎng)絡(luò)結(jié)合起來,一個(gè)直接的思路是將預(yù)測(cè)的輸出與極端事件發(fā)生的預(yù)測(cè)結(jié)合起來,
?????????
?????????此外,為了提高GRU單元的性能,我們建議為每個(gè)窗口j增加懲罰項(xiàng),其目的是預(yù)測(cè)每個(gè)窗口j的極端指標(biāo)qj:
?????????
????????其中pj∈[?1,1]通過全連接層sj計(jì)算,sj是窗口j經(jīng)過GRU后的嵌入表示。
????????最后,我們將需要學(xué)習(xí)的全部參數(shù)列示如下。
- ?GRU中的參數(shù):
- L2提及的計(jì)算pj的參數(shù) 全連接層
- GRU輸出門的參數(shù):
- Q 模塊的參數(shù):
- attention 中的參數(shù)
?
4.4 整體算法
?5 實(shí)驗(yàn)部分
5.1 實(shí)驗(yàn)配置
????????對(duì)三種不同的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn):
????????我們收集了納斯達(dá)克市場(chǎng)564家公司的股票價(jià)格,每周一個(gè)樣本。我們收集的數(shù)據(jù)時(shí)間跨度為2003年9月30日至2017年12月29日。
????????氣候數(shù)據(jù)集由Keeling、Whorf和Lucas等人分別建立的“綠色氣體觀測(cè)網(wǎng)絡(luò)數(shù)據(jù)集”和“大氣Co2數(shù)據(jù)集”組成[25,34]。溫室數(shù)據(jù)集包含了2010年5月10日至7月31日期間,覆蓋12 × 12公里面積的2921個(gè)網(wǎng)格單元的溫室氣體濃度,這些網(wǎng)格單元間隔6小時(shí)(每天4個(gè)樣本)。二氧化碳數(shù)據(jù)集包含了1958年3月至2001年12月期間從夏威夷的莫納洛山每周收集到的大氣二氧化碳濃度。
????????原始數(shù)據(jù)集包含100萬個(gè)數(shù)據(jù)點(diǎn),分為10個(gè)部分。取值范圍為[?0.5,0.5]。
????????對(duì)于前兩個(gè)數(shù)據(jù)集,我們將時(shí)間長(zhǎng)度設(shè)置為500用于訓(xùn)練,200用于測(cè)試,而對(duì)于最后一個(gè)數(shù)據(jù)集,我們將時(shí)間長(zhǎng)度設(shè)置為300用于訓(xùn)練,100用于測(cè)試,每一節(jié)隨機(jī)抽取150個(gè)時(shí)間序列,數(shù)據(jù)點(diǎn)為400個(gè)。
5.2 實(shí)驗(yàn)結(jié)果
????????我們首先驗(yàn)證我們的時(shí)間序列數(shù)據(jù)預(yù)測(cè)的完整框架。我們選擇方根均方誤差(RMSE)作為度量,其中較小的RMSE意味著更好的性能。
????????我們將我們的模型與幾個(gè)最先進(jìn)的baseling模型進(jìn)行了比較:GRU、LSTM和Time-LSTM[50],其中Time-LSTM考慮了xt之間的差異。
????????通過交叉熵(cross entropy, CE)代替EVL,我們還將我們的模型與沒有EVL的記憶網(wǎng)絡(luò)進(jìn)行了比較。結(jié)果見表3。
????????令人驚訝的是,GRU的表現(xiàn)優(yōu)于其他基線,盡管它在真實(shí)世界的數(shù)據(jù)中具有最簡(jiǎn)單的結(jié)構(gòu)。我們推斷其原因是真實(shí)世界的數(shù)據(jù)中存在大量的噪聲,如前所述,這很容易導(dǎo)致一維數(shù)據(jù)的過擬合問題。
????????此外,我們可以看到,我們的模型的RMSE一致低于GRU。值得注意的是,在合成數(shù)據(jù)集上,我們成功地在RMSE上提高了近50%
????????
?????????我們也將每個(gè)模塊的輸出可視化。
????????從結(jié)果中我們可以看到,我們模型的經(jīng)驗(yàn)成功主要?dú)w因于兩個(gè)部分:預(yù)測(cè)值和極端事件標(biāo)簽ut。
????????來自的輸出正確地逼近了數(shù)據(jù)的趨勢(shì),但通常,它預(yù)測(cè)的值通常較小。作為補(bǔ)充,ut通過放大預(yù)測(cè)值來拯救當(dāng)前步驟中極端事件的發(fā)生概率。
????????舉例來說,值得注意的是圖4中時(shí)間步驟600左右的可視化。盡管預(yù)測(cè)趨勢(shì)為上升,但是,它只給出一個(gè)小的正值。作為補(bǔ)充,內(nèi)存模塊檢測(cè)到在這個(gè)時(shí)間步驟會(huì)有一個(gè)右極端事件,因此它產(chǎn)生一個(gè)接近1的輸出,并對(duì)進(jìn)行放大,形成最終的輸出,而GRU幾乎不能做如此復(fù)雜的決定。
5.3 EVL的有效性
????????
????????從表3可以看出,EVL在預(yù)測(cè)過程中起到了重要的作用。我們進(jìn)一步驗(yàn)證了EVL在預(yù)測(cè)未來極端事件發(fā)生方面的有效性。
????????我們使用F1分?jǐn)?shù)來衡量預(yù)測(cè)的有效性。具體來說,我們采用了宏觀、微觀和加權(quán)F1評(píng)分進(jìn)行綜合評(píng)價(jià)。結(jié)果如表2所示。
????????我們將我們提出的EVL與GRU分類器和LSTM分類器進(jìn)行了比較。研究了不同超參數(shù)γ對(duì)EVL的影響。
????????首先,我們可以從圖2中看到,我們提出的損失函數(shù)在每個(gè)數(shù)據(jù)集上都優(yōu)于所有基線。特別是在氣候數(shù)據(jù)集上,EVL在微F1得分上的表現(xiàn)比最佳基線高出47%。
????????有趣的是,我們觀察到γ在很大程度上影響了最終的分類結(jié)果。例如,當(dāng)γ = 4.0時(shí),EVL在合成數(shù)據(jù)集上的性能比基線差。正如我們之前討論過的,γ直觀地描述了數(shù)據(jù)的尾部分布的特征,因此,一個(gè)不當(dāng)?shù)摩每赡軙?huì)誤導(dǎo)模型對(duì)尾部分布進(jìn)行錯(cuò)誤的建模。?
6 后記
? ? ? ? 這篇論文說的都是單變量時(shí)間序列的問題,但是其實(shí)多變量也是可以的。
?
????????還有一點(diǎn)是,個(gè)人認(rèn)為,這篇論文中,如果是那些“史無前例”的極端事件(當(dāng)前時(shí)刻雖然是異常,但是和之前異常時(shí)刻相似度都不高),還是無法探測(cè)到這些極端事件,無法進(jìn)行預(yù)測(cè)的
總結(jié)
以上是生活随笔為你收集整理的论文笔记: Modeling Extreme Events in Time Series Prediction的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 笔记:csv 读写
- 下一篇: 论文笔记 Hierarchical Re