【文献阅读】Applications of deep learning in stock market prediction: Recent progress
Applications of deep learning in stock market prediction: Recent progress
1 本文相關介紹
本文為 2021 年 CCF-C 類期刊 Expert Systems With Applications 所錄用。其相關貢獻如下:
https://github.com/jwwthu/DL4Stock
2 研究結果
作者調研了 2017-2019 年該領域的 研究論文發布情況。如果目標是預測價格的具體值,作者將其歸類為回歸問題,如果目標是預測價格運動方向,例如上漲或下跌,作者將其歸類為分類問題。大多數研究都在考慮每日預測(124個中的105個),只有少數研究考慮了日內預測(124個中的18個),例如每5分鐘或每小時預測。124篇論文中只有一篇同時考慮了每日和盤中情況。
作者將之前的研究總結為一般工作流程,其中包含大多數研究遵循的四個步驟:Raw Data、Data Processing、Prediction Model 和 Model Evaluation。
2.1 Raw Data
在 有效市場假說 中,資產價格已經反映了所有可用信息。但在實踐中,許多研究人員不同意這一結論,因此許多不同的外部數據來源被用于股票市場預測。
有效市場假說(Efficient Markets Hypothesis,EMH)
在法律健全、功能良好、透明度高、競爭充分的股票市場,一切有價值的信息已經及時、準確、充分地反映在股價走勢當中,其中包括企業當前和未來的價值,除非存在市場操縱,否則投資者不可能通過分析以往價格獲得高于市場平均水平的超額利潤。
數據種類
對于深度學習模型,需要大量的輸入數據來訓練一個復雜的模型神經網絡模型。在這種情況下,市場數據是最好的選擇并且使用最多,因為它提供的數據樣本量最大,而其他數據類型通常具有較小的大小。文本數據使用第二多,隨著社交媒體和在線新聞網站的普及以及網絡爬蟲更容易使用網絡爬蟲獲取文本數據。一個極端的例子是分析數據,由于數據稀疏和訪問成本高,這些數據從未在調查研究中使用。
數據長度
為了評估不同模型的性能,需要歷史數據進行評估。但是,在選擇數據長度方面存在折衷。短時間的數據不足以顯示有效且具有較高的過擬合風險,而長時間的數據則冒著穿越不同市場風格并呈現過時結果的風險。此外,數據可用性和成本是選擇數據長度時需要考慮的因素。
獲得高質量的日內數據成本更高,并且以前大多數涉及日內預測的研究都使用不到一年的時間段。
2.2 Data Processing
數據缺失
丟失數據的問題不像其他領域那樣嚴重,例如傳感器數據,因為市場數據更可靠,并且得到交易市場的良好支持和維護。但是,為了對齊具有不同采樣頻率的多種類型的數據,例如市場數據和基本面數據,應將采樣頻率較低的數據向前插入,將最后一個有效觀察值向前傳播到下一個有效值,以避免數據泄漏的未來信息。
數據降噪
股票交易過程中存在諸多非理性行為,市場數據充滿噪音,可能會歪曲價格變化趨勢,誤導預測。作為一種信號處理技術,小波變換(wavelet transform) 已被用于消除股票價格時間序列中的噪聲。另一種方法是使用 kNN-分類器,該分類器基于數據準備層中具有不同標簽的兩個訓練集。
特征提取
首先是輸入特征的情況。
數據降維
許多特征可能彼此高度相關,例如,技術指標都是根據歷史開盤價/最高價/最低價/收盤價和成交量計算得出的。為了緩解深度學習模型過度擬合的相應問題,已采用輸入特征的降維作為股票市場預測的預處理技術。
主成分分析(PCA) 是一種常用的變換技術,它使用輸入數據的奇異值分解將其投影到較低維空間。Zhong 和 Enke (2017) 甚至對不同版本的 PCA 進行了比較,發現 PCA-ANN 模型 相比于使用 模糊魯棒主成分分析(FRPCA) 和 基于核的主成分分析(KPCA) 對第二天 SPY 的每日方向的預測精度略高。
其他選擇的方法有:獨立分量分析 (ICA) 、自動編碼器 、受限玻爾茲曼機、經驗模式分解 (EMD) 和 子模式坐標算法 (SMC) 。
特征選擇 是另一種降維方式,只選擇輸入特征的一個子集。卡方方法 和 最大相關性和最小冗余 (MRMR) 是兩種常用的特征選擇技術。卡方方法決定分類預測變量和目標類變量是否獨立。高卡方值表示目標變量對預測變量的依賴程度。最小冗余最大相關性使用啟發式方法來最小化冗余,同時最大化相關性以通過 F 統計值為連續和離散輸入選擇有希望的特征。
特征標準化
給定不同尺度的不同輸入特征,使用特征歸一化和標準化來保證一些機器學習模型可以工作,也有助于提高模型的訓練速度和性能。 特征歸一化是指通過最小值和范圍重新調整輸入特征的過程,使所有值介于 0 和 1 之間,或介于 ? 1 和 1 之間。
數據劃分
為了評估不同的預測模型,機器學習和深度學習領域通常使用樣本內/樣本外拆分或數據樣本的訓練/驗證/測試拆分。使用訓練或樣本內數據集訓練模型,在可選的驗證數據集上微調超參數,并在測試或樣本外數據集上評估最終性能。進一步使用k-fold交叉驗證將數據集分成k個連續的折疊,k-1折疊作為訓練集,最后一個折疊作為測試集。
數據增強
數據增強技術已廣泛用于圖像分類和目標檢測任務,并被證明可以有效地提高分類和檢測性能。然而,它較少用于包括股票預測在內的時間序列任務,盡管股票價格時間序列的大小無法與公共圖像數據集的大小相提并論,公共圖像數據集通常有數百萬個樣本,近年來甚至更多。
2.3 Prediction Model
大多數預測模型屬于監督學習方法,當訓練集用于訓練,測試集用于評估時。當標簽在特征提取步驟中不可用時,只有少數研究使用半監督學習。我們進一步將各種預測模型分為三種類型:標準模型及其變體、混合模型和其他模型。對于標準模型,大量使用了三類深度學習模型,即前饋神經網絡、卷積神經網絡和遞歸神經網絡。我們將生成對抗網絡、遷移學習和強化學習的使用歸類到其他模型中。這些模型是近幾年才出現的,目前還處于應用于股市預測的早期階段。
綜合情況來看:
2.4 Model Evaluation
主要分為四種評估指標:
3 未來方向
作者認為未來可發展的方向如下:
總結
以上是生活随笔為你收集整理的【文献阅读】Applications of deep learning in stock market prediction: Recent progress的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 16:9分辨率
- 下一篇: 面试官问:你们项目中用Redis来干什么
