【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。
作者:杰少
DoubleEnsemble?
簡介
本文,我們介紹一種新的集成算法,算法的基本思想是希望讓噪音樣本的權重減小,讓難以分類的樣本權重增大從而提升模型的效果,從論文的思路和實驗結果來看都是非常不錯的,和大家一起分享一下。
在金融數據集中,數據的信噪比是非常低的,使用復雜的NN模型最大的挑戰就是過擬合問題,而且相對并不穩定。當前非常多交易公司會生產非常多的特征(也稱因子)。如何自動選擇有效的特征成為一個迫在眉睫的問題。為了解決這些問題,本文提出DoubleEnsemble,這是一個集成框架,利用基于學習軌跡的樣本重新加權和基于shuffle的特征選擇。
具體地說,我們根據每個樣本的訓練動態識別關鍵樣本,并通過shuffle根據每個特征的消融影響提取關鍵特征。
我們的模型適用于廣泛的基礎模型,能夠抽取復雜的模式,同時緩解金融市場預測的過度擬合和不穩定問題。我們進行了廣泛的實驗,包括加密貨幣和股票交易的價格預測,使用DNN和GBDT作為基礎模型。實驗結果表明,與幾種基線方法相比,DoubleEnsemble具有更好的性能。
背景
金融數據中存在較低的信噪比,為了解決低信噪比的問題,本文提出了一種新的金融市場預測集成框架DoubleEnsemble。特別地:
- 在ensemble中逐個構造子模型,其中每個子模型都使用樣本的權重和精心選擇的特征進行訓練。 
在學習子模型時,可以使用多種基本模型,如線性回歸模型、boosting決策樹和深度神經網絡。每次,使用基于采樣重新加權機制的學習路徑,我們對原始訓練集合中的每個樣本賦予一個權重,我們根據前一個子模型的損失曲線和當前集合的損失值(稱之為學習軌跡),為原始訓練集中的每個樣本分配一個權重。此外,我們通過shuffle技術根據特征對當前集合的貢獻來選擇特征。
提出的方法
特征矩陣,標簽, 其中,其中為樣本個數,是特征個數。為第個樣本特征向量, 是第個樣本的標簽。
在過程中,我們序列化地構建哥自模型,,在構建完第哥自模型之后,我們定義當前的集成模型為:,DoubleEnsemble的輸出為是個子模型的均值。
每個子模型是在訓練數據集以及一個選出的特征集合, 權重為,其中為第個樣本的權重,對于第一個子模型,我們使用所有的特征以及一樣的權重,對于接下來的子模型,我們使用基于采樣重新加權的學習路徑以及基于特征選擇的shuggle技術來決定權重并且選擇特征。
SR(Sample Reweighting)
我們抽取在前一個模型的訓練損失曲線和當前集成的損失曲線,假設在之前子模型的訓練中有輪迭代。我們使用來表示學習曲線,其中是在第輪的第個樣本的誤差,我們使用表示損失值,為第個樣本的當前集成的誤差(即和的誤差);
FS(Feature Selection)
我們直接提供訓練數據以及當前的集成結果。
DoubleEnsemble算法
01
 
算法
其中SR為:
SR算法中的(1)為,
為了防止極值的影響,我們將樣本劃分為B個分桶,并且給予同一個分桶中的樣本一樣的權重,
其中b為第個分桶的平均值,為衰減因子,這樣可以是的后續的集成子模型更加均勻。
02
 
背后的思想
如上圖所示:我們考慮分類任務中的三類樣本:
- 容易被正確分類的簡單樣本; 
- 接近真實決策邊界的難被分類的樣本,容易被錯誤分類; 
- 以及可能誤導模型的噪聲樣本。 
我們希望我們重新加權方案能夠提高難以分類的樣本的權重,同時降低簡單樣本和噪聲樣本的權重。
- 簡單樣本無論如何都可以擬合,而擬合噪聲樣本可能會導致擬合過度。 
項有助于減少簡單樣本的權重。具體而言,簡單樣品的損失很小,會導致值較大,因此權重較小。
然而,該項也會增強噪聲樣本,因為僅根據損失值很難區分噪聲樣本和難以分類的樣本。我們通過的損失曲線來區分它們(上圖b)。我們為具有遞減歸一化損失曲線的樣本分配了較大的權重。由于訓練過程是由大多數樣本驅動的,因此大多數樣本的損失趨于減少,而噪聲樣本的損失通常保持不變甚至增加。因此,噪聲樣本的歸一化損耗曲線將增加,從而導致較大的值和較小的權重。對于簡單易分類的樣品,它們的標準化損耗曲線更有可能保持不變或者輕微波動,這會導致值適中。對于難以分類的樣本,它們的歸一化損失曲線在訓練過程中緩慢下降,這表明它們對決策邊界的貢獻。這導致值較小,因此權重較大。如果上圖1c所示。使用不僅增加了難分類樣本的權重,而且也增加了難分類樣本的權重。
最終通過和的結合,我們可以減少容易分類樣本的權重和噪音樣本的權重。
03
 
shuffling based feature selection
該算法用來對特征進行選擇,并且將選擇的特征輸入到下一輪當中。
實驗
從上面的實驗中,我們發現:
- 本文的算法獲得了最佳的實驗效果; 
- DoubleEnsemble(SR+FS)實現了50%以上的年化回報,且風險較低。夏普比接近5.0,最大drawdown小于6.0%。這表明Doubleensemble的策略具有優越而穩定的性能。 
小結
本文通過學習基于軌跡的樣本重加權和基于洗牌的特征選擇,提出了一種穩健有效的集成模型DoubleEnsemble。基于學習軌跡的樣本重加權方法將不同難度的樣本賦予不同的權重,非常適合于高噪聲和不規則的市場數據。基于shuffle的特征選擇可以識別特征對模型的貢獻,并為不同的子模型選擇權重和多樣的特征。目前該方法代碼已經開源,有興趣的朋友可以嘗試一下。
參考文獻
https://arxiv.org/pdf/2010.01265.pdf
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》課件合集 本站qq群851320808,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【数据竞赛】DoubleEnsemble--专治硬样本的神奇集成技术。的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 电脑重装系统按哪个键
- 下一篇: springMVCs下载
