Decision-Driven Regularization A Blended Model for Predict-then-Optimize
摘要
在上下文優(yōu)化中,決策者尋求最佳決策以最小化成本,該成本基于觀察到的特征而變化。這種上下文在許多業(yè)務應用程序中很常見,從按需交付和零售運營到投資組合優(yōu)化和庫存管理。在本文中,我們研究了預測然后優(yōu)化的方法,該方法首先了解結(jié)果如何從特征中產(chǎn)生,然后根據(jù)這些結(jié)果選擇最佳決策。由于無法獲得真實結(jié)果,我們在文獻中發(fā)現(xiàn)成本函數(shù)的定義存在歧義。為了解決這個問題,我們提出了一個混合的預測然后優(yōu)化框架,該框架可能會導致對結(jié)果的預測有偏差,但可以輕松地將優(yōu)化問題納入預測階段。這是通過決策驅(qū)動的正則化實現(xiàn)的。
我們批判性地表明,可以從三個角度來解決預測然后優(yōu)化問題,即正則化、魯棒優(yōu)化和后悔最小化方法;并證明這些觀點等效于或可以自然地近似以得出我們提出的模型。因此,我們的框架概括了 Elmachtoub 和 Grigas(2020)中的 SPO+ 和 Zhu 等人中的 JERO 等模型。(2020)。基于我們的框架,我們提出了混合模型,我們在數(shù)值上展示了在低錯誤規(guī)格下優(yōu)于 SPO+
1引言
在不確定性設置下的許多決策中,優(yōu)化目標和約束是通過使用數(shù)據(jù)來估計的。名義上,這可以寫成以下成本最小化問題
公式
對于一些決策變量 y ∈ Y 和一些未觀察到的參數(shù) z。一個例子是自適應路由的上下文,例如按需交付服務所面臨的上下文(也在 Elmachtoub 和 Grigas 2020 中討論過)。 假設決策者要選擇 d 條路線來運送包裹。
然后,z 可能代表在這些路線中的每條路線上花費的未觀察到的時間,而 y 可以代表選擇哪條路線的決定。 總共花費的時間為 c(y; z) = y >z。
這個問題是歷史背景。 最近,重點是如何使用可能描述未觀察到的結(jié)果 z 的數(shù)據(jù)來做出正確的決策 y,同時認識到這些數(shù)據(jù)并不能完全代表生成它們的 z 的真實分布。 這導致了數(shù)據(jù)驅(qū)動的穩(wěn)健優(yōu)化模型(例如 Van Parys 等人 2020、Sutter 等人 2020)的工作流,其中分布以模糊集為特征,通常在某種發(fā)散度量下(Ben -Tal 等人 2013,Lam 2016 年),或構(gòu)建為圍繞每個數(shù)據(jù)點的球,例如在 Wasserstein 歧義集中(Gao 等人 2017,Mohajerin Esfahani 和 Kuhn 2018)。
1.1 上下文隨機優(yōu)化
研究的重點越來越多地轉(zhuǎn)移到存在可能有助于估計未觀察到的 z 的附加信息的設置。我們將表示為 x 的這些信息有時稱為特征(或輔助信息或協(xié)變量)。決策者希望根據(jù)此附加信息 y(x)(den Hertog 和 Postek 2016)做出不同的決定。回到自適應路由的例子,這里,如果決策者有 n 個包裹要交付,那么可以想象,這些包裹中的每一個的最佳路線選擇應該不同。但當然,每個包裹在這些路線上實際花費的時間是未知的,可能會因目的地、一天中的時間、當前的擁堵情況、當前的天氣等因素而有所不同。這些因素在做出決定的點,它們形成了特征。特別是,決策者擁有一個歷史數(shù)據(jù)集,有助于推斷旅行時間與此類特征之間的關系。
此設置通常稱為上下文隨機優(yōu)化(或有時稱為決策感知學習或聯(lián)合預測和優(yōu)化)。它越來越普遍,可以在從按需交付(Liu 等人,2020 年)到零售運營(Ferreira 等人,2016 年,Perakis 等人,2018 年)以及投資組合優(yōu)化(Ban 等人,2018 年)等各種環(huán)境中看到。 2018)到庫存管理(Craig 和 Raman 2016、Qi 等人 2020、Siegel 和 Wagner 2020)等等。
通常的提法是一個可能在這種情況下寫的是以下優(yōu)化問題:
公式1
其中 y( · ) 是決策者希望解決的決策規(guī)則,在一些被考慮為 Y 的函數(shù)類別中,結(jié)果 z 和特征 x 之間存在一些固有的但目前未知的關系 z|x .
這樣的表述構(gòu)成了 Deng 和 Sen(2018 年)、Bertsimas 和 McCord(2019 年)、Bertsimas 和 Kallus(2020 年)、Kallus 和毛澤東(2020 年)、Kannan 等人的最佳特征作品的起點。
(2020)。在這種情況下,函數(shù)類 Y 的選擇對于確保易處理性很重要。
最簡單的是線性決策規(guī)則(例如,在 Beutel 和 Minner 2012、Ban 和 Rudin 2019 中提出的)。在某些情況下,如果利用結(jié)構(gòu)(即 z 和 x 之間關系的性質(zhì)),可以考慮更復雜的類,例如 Bertsimas 等人。(2019),作者考慮了決策的樹結(jié)構(gòu),在這種情況下是治療組的分配。
使用 (1) 中第二種形式的替代方法需要估計期望 Ez|x。通過將決策構(gòu)建為加權(quán)樣本平均近似 (SAA) 的解決方案,提出了一種解決此類公式的方法。在這里,權(quán)重將被最優(yōu)確定,例如,在 Bertsimas 和 Kallus (2020) 中,作者通過回歸方法選擇權(quán)重,例如 k-最近鄰 (kNN)、核、分類和回歸樹 (CART),或隨機森林(RF)。Ban 和 Rudin (2019) 也提出了這種方法來解決報童問題。
1.2 先預測后優(yōu)化
該文獻的一個子流特別研究了以下解決確定性問題的方法,
公式2
其中,z是一些估計器,用于與所述特征量x,其被稱為預測而變化的結(jié)果。這稱為預測然后優(yōu)化 (PTO) 框架,因為它涉及兩個階段。首先,在預測階段,估計?從數(shù)據(jù)獲悉。這可以通過一個學習過程來實現(xiàn),該過程估計一些假設的參數(shù)模型系列的權(quán)重,將結(jié)果與特征相關聯(lián)。然后在隨后的優(yōu)化階段,(2)使用所述估計z為解決代替未觀察到的結(jié)果。傳統(tǒng)上,這兩個階段是分開完成的(參見例如 Fisher 和 Vaidyanathan 2014、Ferreira 等人 2016、Glaeser 等人 2019),即
估計?通過最大化在歷史數(shù)據(jù)預測精度構(gòu)成,是無知后續(xù)優(yōu)化問題的。
然而,有越來越多的證據(jù)在文獻中,它指向?qū)щ姷拇蝺?yōu)預測-則-優(yōu)化分開(參見例如Liyanage和Shanthikumar 2005,Mundru 2019)。許多這樣的方法,最大限度地提高精度導致零偏估計。在形式上,這不會以及解決分鐘y的問題進行∈ yC(Y;的Ez | X [Z])通常不等同于(1)。在第2節(jié)之后,我們將提供在為什么連方法,最大限度提高準確性和不會導致零偏估計,不會是最佳的更多的理由。
這些結(jié)果的存在提示方法的搜索條件的導致非零偏置估計? ,以及結(jié)合有關于成本函數(shù)c信息(· ; ·在其中形成這些估計的方式)。在這里,我們將它們稱為“聯(lián)合預測然后優(yōu)化” 。早期的嘗試是經(jīng)驗優(yōu)化(例如 Haussler 1992,Bartlett 和 Mendelson 2006),它最大限度地減少了訓練數(shù)據(jù)可能導致的決策損失。然而,它并不總是易于處理的,特別是當作為所選估計器的函數(shù)的最優(yōu)決策沒有封閉形式的表示時。當訓練數(shù)據(jù)不足時,它也有可能過度擬合,導致性能不佳(如 Kao 等人 2009 所指出的)。
另一個最早的嘗試是 Kao 等人。(2009),旨在通過尋求與預測準確性的權(quán)衡來解決經(jīng)驗優(yōu)化模型的潛在過度擬合問題。這是通過零偏差權(quán)重和從經(jīng)驗優(yōu)化獲得的權(quán)重的凸組合在參數(shù)設置中完成的。這種在解決方案空間或優(yōu)化目標中直接結(jié)合預測精度和成本函數(shù)的概念,后來也得到了 Kao 和 Van Roy(2014 年)以及 Bertsimas 等人的回應。(2019)。
雖然高錕等人的作品。(2009)和花王和Van羅伊(2014)更具體地集中于特殊情況下,諸如二次成本函數(shù)而在后者的主成分分析,作品下一波旨在解決聯(lián)合預測-則-優(yōu)化一般估計上下文和成本函數(shù)。懷爾德等。(2019),例如,嘗試共同解決用于估計?和(2)中,通過使用組合的優(yōu)化技術。Gupta和Rusmevichientong(2021)具體地放大到小數(shù)據(jù)政權(quán)提出兩類關于貝葉斯估計和正則化方法。他們還提到關于他們的論文偏差修正。
關于我們的工作,Elmachtoub 和 Grigas(2020 年)、Tulabandhula 和 Rudin(2013 年)以及 Zhu 等人的論文。(2020) 最密切相關。在 Elmachtoub 和 Grigas (2020) 中,作者提出了一個模型,該模型試圖找到使遺憾最小化的一組預測變量。由于這可能會導致非凸公式,作者提出了一個凸松弛,他們證明了 Fisher 與原始模型一致。最近,他們的模型引起了極大的關注(獲得了后續(xù)跟進,例如 El Balghiti 等人 2019、Mandi 等人 2020、Elmachtoub 等人 2020),盡管 Hu 等人。(2020) 反駁說,這種方法可能有一個缺點,例如收斂速度較慢。
Tulabandhula 和 Rudin (2013) 直接將決策目標納入預測問題的損失函數(shù)中,并將其稱為同步過程。在朱等人。(2020),作者試圖在參數(shù)模型中錯誤預測權(quán)重但位于損失函數(shù)幾何結(jié)構(gòu)下預測權(quán)重的鄰域內(nèi)的前提下,穩(wěn)健地優(yōu)化決策。他們的模型可以解釋為先預測再優(yōu)化的模型,其中估計量由最壞情況的權(quán)重構(gòu)成。此外,Tulabandhula 和 Rudin (2013) 的結(jié)果將類似的穩(wěn)健優(yōu)化公式與他們提出的模型聯(lián)系起來。
我們將在后面的第 2 節(jié)中詳細介紹這些作品的選擇。
1.3方法和貢獻
在本文中,我們在聯(lián)合預測然后優(yōu)化設置中工作,在那里我們尋找有偏見的預測器,當與真實結(jié)果進行衡量時,這些預測器可以導致低成本政策。這是通過決策驅(qū)動的正則化將決策納入學習過程來完成的,該正則化捕獲如果在預測階段選擇了特定的權(quán)重選擇,可以獲得決策的最佳可能最優(yōu)值。特別是,在這項工作中,我們做出了以下貢獻:我們發(fā)現(xiàn)在predictthen-optimize框架下估計成本函數(shù)存在固有的歧義,并提出了一個近似真實成本函數(shù)的替代函數(shù)(命題1);灣 我們以文獻中的思想為基礎,并提出了一個通用框架,將預測的選擇與其對成本函數(shù)的影響聯(lián)系起來,作為決策驅(qū)動的正則化;C。我們展示了可以從三個角度來解決預測然后優(yōu)化問題,即正則化、魯棒優(yōu)化和后悔最小化的角度;并證明這些觀點自然會導致類似的公式(定理 1 和 2);d. 其結(jié)果是,我們證明了模型朱等人提出。(2020) 和 Elmachtoub 和 Grigas (2020) 是我們模型的特例(分別是命題 3 和 4)。此外,我們建議修改Elmachtoub和Grigas(2020) “ S模式我們低誤規(guī)范下數(shù)字顯示跑贏大盤。
在這里,我們想指出的是,雖然有大量工作將穩(wěn)健優(yōu)化與正則化聯(lián)系起來(正如我們將在第 3.1 節(jié)中討論的那樣),但遺憾最小化和穩(wěn)健優(yōu)化之間的關系不太清楚,文獻中也很少討論。我們的貢獻 C. 增加了這個討論。通過繪制魯棒優(yōu)化和后悔最小化之間的聯(lián)系,我們能夠概括 Elmachtoub 和 Grigas(2020)以及 Zhu 等人的工作。(2020)。
提出的這些模型是從不同的角度構(gòu)建的,并導致明顯不同的公式。因此,我們要在此強調(diào),兩個模型都是特例的框架的存在并非顯而易見。
由于類似的想法納入成本為學習目標花王等人已經(jīng)信奉。(2009),花王和Van羅伊(2014)和Bertsimas等。(2019),我們需要時間來這里從它們分化我們的工作。在Kao等。(2009)和花王和Van羅伊(2014),所提出的權(quán)重躺在線鄰接零偏置權(quán)重和經(jīng)驗優(yōu)化解決方案; 在我們的模型中,我們搜索了權(quán)重的整個空間。在Bertsimas等。(2019),它們的模型公式假定是基于樹設定特定決策結(jié)構(gòu),并且如果它容易延伸到其中的決定不限制一般性設定目前尚不清楚。因此,相對于這三部作品,我們的論文集中在更一般的情況下,當遇到顯著新的挑戰(zhàn)。在這方面,我們的范圍是最類似于Elmachtoub和Grigas(2020年),Tulabandhula和魯丁(2013),和朱等人。(2020)。
論文組織 在介紹之后,第 2 節(jié)專門描述預測然后優(yōu)化框架。之后,我們在第 3 節(jié)中提出了決策驅(qū)動的正則化框架,并說明從穩(wěn)健優(yōu)化或后悔最小化的角度進行處理會導致相同的模型。第 4 節(jié)用數(shù)字說明了我們在 DDR 模型中描述的行為。我們在第 5 節(jié)中總結(jié)了一些評論。 為了便于閱讀,我們將所有證明推遲到附錄 A 中。
2 預測再優(yōu)化框架
考慮一個決策者,他的目標是借助數(shù)據(jù)來預測未來結(jié)果,從而最大限度地降低成本。我們將其表示為決策變量 y ∈ Y ? R d 和成本函數(shù) c(y; z) : Y × Z 7 → R的優(yōu)化問題,其中 z ∈ Z ? R s 是要預測的結(jié)果向量。理想情況下,如果決策者知道真正的結(jié)局Z = Z ^ 1,他們可以解決以下問題,以獲得最佳的政策:
分鐘? ∈ yC(Y; Z ),(3)
我們稱之為甲骨文“小號的問題。
然而,Z是無法得知的決策者,因此需要進行估算。相反,決策者能夠觀察特征向量 x ∈ X ? R p 。在這里,我們假設結(jié)果 z 可以完全由特征 x 決定,即存在一些函數(shù) g(x) : X 7 → R s 使得 z = g(x)。雖然預言將能夠解決分鐘y ∈ yC(Y; Z (X))對于任意x,以獲得它的決策規(guī)則Y(x)時,并因此有效地解決了分Y(x)的實施例[C(Y( X); Z (X))],
決策者不知道這種關系? (X),因此需要學習這個函數(shù)g。在參數(shù)設置中,決策者認為函數(shù) g 位于一系列參數(shù)模型 f(x; w) : X × R q 7 → Z 中。在這里,我們將假設存在一些真實但不可觀察的權(quán)重瓦特使得G(X)= F(X; W )。 在現(xiàn)實中,決策者將觀察結(jié)果嘈雜? ?,這是從該機構(gòu)?產(chǎn)生?= F(X ?; W )+
?關于訓練特征 x ? ,對于某些實現(xiàn)
?均值零和組件方式獨立誤差
. 特征和觀察到的結(jié)果形成了一個訓練數(shù)據(jù)集 DN = {(x ~ n, z ~ n)n ∈ [N]},這是決策者的隱私。這里,N是歷史觀測的數(shù)量和[N] = {1,2,…,N}是一組正指數(shù)高達N.決策者利用此數(shù)據(jù)集來推斷真權(quán)重w 。 這導致決策者以形成用于瓦特的估計,表示為瓦特,從該預測? := F(X ; W ),用于任何新觀察到的特征量x的形成。預測?被用來解決確定性優(yōu)化問題,分鐘? ∈ yC(Y; Z )。
這被稱為預測然后優(yōu)化框架。它包括兩個階段:第一階段(預測)估計W上的權(quán)重從通過一些學習訓練數(shù)據(jù)集DN
方案L:DN 7 → R Q,W = L(DN)。(4)
使得結(jié)果?可以通過F為預測(X; W )的任何一組特征的x。
階段2(優(yōu)化)測試僅包含新特性X數(shù)據(jù)集DM ,被呈現(xiàn)給決策者,誰使用z = F(X ; W )代替z與對于問題(3):
分鐘? ∈ yC(Y; Z ):=分鐘Y ∈ yC(Y; F(X ; W )),(5)
獲得最優(yōu)解y * (Z )∈ ARG分鐘y ∈ yC(Y; Z )。
在我們繼續(xù)之前,我們總結(jié)了表 1 中的符號。
分離預測和優(yōu)化
在文獻中,這是經(jīng)常可以看到模型,其中決策者傳導預測和優(yōu)化分開,即決策者估計權(quán)重w通過使用accuracybased度量和因子不考慮成本函數(shù)C(· ; · )。讓函數(shù):Z × Z 7 → R 是衡量兩個結(jié)果之間接近程度的指標。例如,可以是任何標準,(Z ; Z ?)= KZ - ? ?KQ中,q ≥ 1。因此,一個預測模型(與權(quán)重w相關聯(lián))的預測如何準確地描述了結(jié)果Z,我們稱之為保真度(也稱為模型擬合),可以通過與此接近度度量 L(w) = Ex,z[(f(x; w), z)] 相關的損失函數(shù)來衡量。這是使用數(shù)據(jù)集 DN 在樣本中估計的,通過
公式
這樣,一種可能的方式,從而獲得估算權(quán)重w是通過最小化損失函數(shù)
L(w),即
公式
例如,均方誤差(MSE)(Z ; Z ?)= KZ - ? ?K 2個2對應于普通最小二乘(OLS)與表示為瓦特估計權(quán)重OLS。 損失函數(shù)也可能包含一個正則化項,如LASSO,L(w) = 1 NP n ∈ [N] f(x ~ n; w); z ~ n + θ kwk1 或嶺回歸,L(w) = 1 NP n ∈ [N] ` f(x ~ n; w); z ~n + θ kwk 2 2 。
這種損失的功能集中在保真度,但他們并不能保證以后的優(yōu)化性能良好。例如,Liyanage和Shanthikumar(2005)研究了報童問題,并表明,從不同的估計和優(yōu)化導致次優(yōu)的解決方案中獲得的最佳訂貨量的無偏估計。Elmachtoub和Grigas(2020)示出了一個非偏置估計器,即,OLS估計量,會導致更差的性能在隨后的優(yōu)化階段而偏置估計器可作為oracle執(zhí)行幾乎為好。
我們努力在圖 1 中解釋為什么會這樣。在這里??,我們考慮將在第 3 節(jié)中介紹的決策驅(qū)動正則化模型。我們在兩個軸上繪制,由 MSE(帶點的藍線)測量的保真度,以及在正則化程度λ的范圍內(nèi),由 me 成本(帶十字的橙色線)衡量的決策性能,每個都對應于從模型中學到的一些權(quán)重 w。這是根據(jù)我們稍后在第 4 節(jié)中的模擬研究改編的。 如果通過最小化損失函數(shù)來尋求模型的最佳保真度,他們將得出與某個λ ≈ 1.0相對應的權(quán)重 w 的選擇,這對于決策問題——決策問題的最佳權(quán)重選擇對應于λ ≈ 1.7。原因在于后續(xù)的優(yōu)化過程,該過程接受預測(作為權(quán)重的函數(shù))并輸出決策和最佳值。這個過程和最優(yōu)值在輸入中不是線性的,即預測。因此,在這種非線性變換下,不能保證損失曲線的最小值仍然是成本曲線的最小值。
正式地說,如果學習方案是一致的,則不會被錯誤指定并收斂于真理。然后在極限情況下,在規(guī)律性條件下(例如,有界和統(tǒng)一連續(xù)性),單獨的預測然后優(yōu)化模型中的決策仍將收斂到最佳解決方案。
盡管如此,這不足以保證有限樣本的良好性能,這也是我們完全執(zhí)行正則化的原因——正則化模型在實現(xiàn)更高的預測精度方面優(yōu)于非正則化模型,盡管這兩種模型在極限。只要我們留在有限數(shù)據(jù)集的空間,圖1中的成本和保真度曲線之間的差總是存在(保存針對具體情況如在Ho-阮和K描述?升? ? ? C-Karzan 2020)。換句話說,在有限的數(shù)據(jù)下,僅僅追求保真是不夠的。
因此,與損失函數(shù)相反,重點將是找到一組最小化成本函數(shù)的權(quán)重。一種可能的方法是利用有關決策過程的信息來改變結(jié)果的估計。在預測然后優(yōu)化模型的上下文中,我們將這種聯(lián)合預測然后優(yōu)化稱為。具體來說,目標是在預測然后優(yōu)化框架的第一個預測階段設計一些新方案 L * ,
瓦特= L * (DN),
其中,相對于傳統(tǒng)的方案L,通過最小化損失函數(shù)的保真度就不會成為選擇W上的唯一標準。 相反,新的方案L *渴望選擇瓦特下一些新的標準,以盡量減少c中的費用(Y * (Z ); Z ),作為相對于真預言的結(jié)果?測量,其中y * (Z )從選擇權(quán)重w產(chǎn)生的決策。 在這方面,它與預期的遺憾,例HC(Y * (Z ); Z )-分鐘Y ∈ yC(Y; Z )1。
聯(lián)合預測然后優(yōu)化
概括地說,我們長期研究的預測,當時的優(yōu)化文獻中的流,目的是尋求權(quán)重w是最小化成本函數(shù),聯(lián)合預測,當時的優(yōu)化。在這里,我們專門討論與我們稍后在第 3 節(jié)中提出的模型密切相關的模型。
**智能“預測然后優(yōu)化” 。**當目標在決策變量 y 和結(jié)果 z 中是雙線性的,即 c(y; z) = y >z,Elmachtoub 和 Grigas (2020) 提出了一個模型來尋找預測問題的權(quán)重,從而最小化遺憾:w SPO = L SPO(DN):= ARG分鐘瓦特1 NX? ∈ [N] HC y * (Z n)的; z ~ n ? min yn ∈ Y c(yn; z ~ n) i 。(SPO)
該制劑SPO可以潛在地非凸。相反,下面的代孕,這是凸和Fisher一致的SPO,建議。這個被命名為“ SPO + ” 。
arg min w 2 1 NX n ∈ [N] c y ? (z ~ n); f(x ~ n; w) + 1 NX n ∈ [N] max yn ∈ Y c(yn; z ~ n) ? 2c yn; f(x ~ n; w) 。(SPO+)
在他們的論文中,作者說明,通過他們的模型放棄忠誠做出的預測(具體而言,當損失函數(shù)L(·換取高性能的決策,導致降低成本)已從該模型的語句現(xiàn)在消失了)。稍后我們將在第4節(jié)顯示,一個不需要支付模型精度如此沉重的代價,并且仍然保留成本minimizatio不錯的表現(xiàn)。
同時過程。Tulabandhula 和 Rudin (2013) 提出以優(yōu)化問題為目標對損失函數(shù)進行正則化,并將其稱為同步過程 (SP):
arg min w L(w) + λ min y ∈ Y c y; F(X ; W),(SP)
其中 L(w) 是訓練數(shù)據(jù)集的預測損失,λ ∈ R 是正則化參數(shù)。在這里,作者評估了測試數(shù)據(jù)中的數(shù)據(jù)點 x 訓練點的成本函數(shù)。這可能會帶來一些擔憂。首先,使用測試數(shù)據(jù)來評估訓練的重點。 這可能會帶來一些擔憂。 首先,使用測試數(shù)據(jù)評估成本函數(shù)與使用訓練數(shù)據(jù)評估損失函數(shù)不一致。 因此,該模型可能無法推廣,特別是當測試數(shù)據(jù)偏離訓練數(shù)據(jù)時。 其次,在實踐中,當新數(shù)據(jù)以新測試數(shù)據(jù)的形式定期提供給模型時,模型每次都會產(chǎn)生一組不同的權(quán)重 w,因此本質(zhì)上是不同的模型。
聯(lián)合估計和魯棒性優(yōu)化。 朱等人。 (2020) 探索聯(lián)合估計和魯棒性優(yōu)化模型,旨在最大化預測損失 L(w) 錯誤估計的魯棒性,同時滿足平均(估計)成本目標 τ:
公式杰羅!
其中 w ?是損失函數(shù)的最小值,w ? ∈ arg min w L(w)。在這里,我們改編了朱等人的原始模型。(2020) 求解全局最優(yōu)解 yn ≡ y,適用于決策 yn 適用于每個數(shù)據(jù)點的情況。這樣做是為了確保與所考慮的其他模型的一致性。
**SP 和 JERO 的模型之間存在隱含的聯(lián)系。在 Tulabandhula 和 Rudin (2013) 中,作者提出了一個穩(wěn)健的優(yōu)化模型,隨后證明 SP 等效于該模型。除了兩個方面,JERO 幾乎等同于這個強大的優(yōu)化模型。首先,JERO 在評估成本函數(shù)時避免使用測試數(shù)據(jù),而是使用訓練數(shù)據(jù)。如前所述,這種差異在實踐和概念上都很重要,但在數(shù)學上是微不足道的,并且這種修改為使用訓練數(shù)據(jù)的 SP 模型與其穩(wěn)健對應模型之間的等效結(jié)果仍然像以前一樣。其次,JERO 涉及穩(wěn)健性水平ρ的校準,無需交叉驗證。這可以被認為是顯著的差異。對此,我們提出兩點意見。之一,杰羅最終仍然在于預測-則-優(yōu)化模型,其中所選擇的權(quán)重w的境界是最壞的情況下權(quán)重w的不確定性集合U下(ρ )為最佳ρ 。二、往后看,SP和JERO都放在同一個模型下,為了方便參考,只參考JERO。
**成本模糊的問題。**在利用在預測階段優(yōu)化問題的結(jié)構(gòu),這三款機型都使用了成本函數(shù)在設計自己的方案采摘w ^ 。 盡管如此,精明的讀者會在這一點上,在上述三種情況下,成本函數(shù)的不同的定義來實現(xiàn)-在SPO,作者已經(jīng)定義使用所觀察到的結(jié)果在數(shù)據(jù)z在其遺憾成本?; 在SP,F(X ; W)被使用,其表示作為估計所述測試數(shù)據(jù)的費用; 而在 JERO 中,成本由對訓練數(shù)據(jù)的預測形成,而不是 f(x ~ ; w)。代替下真結(jié)果z上被限定的真實成本函數(shù)的;(Z y)的,換句話說,每一個模型都使用了不同的替代物的費用函數(shù)c的定義中,C(Y; Z )。 實際上,在學習點永遠不會知道真實的預測以及真實的成本函數(shù),即成本函數(shù)中存在歧義。
在這里,出于與上述相同的原因,我們首先排除在成本函數(shù)的估計中使用測試數(shù)據(jù)作為 SP 的情況。如果我們限制自己在學習階段只使用訓練數(shù)據(jù)集 DN,那么定義成本函數(shù)有兩種選擇。第一種選擇是跟隨 SPO+ 并利用觀察到的結(jié)果 z ~。我們稱以這種方式定義的成本函數(shù)為經(jīng)驗成本— c(y; z ? )。另一種選擇是利用所估計的或預測的結(jié)果?對于給定的權(quán)重w,如在杰羅,做完這導致估計成本- ? ?; f(x ~ , w) 。單獨使用它們中的任何一個都會丟失另一個捕獲的有用信息,并導致不同類型的偏見。在使用觀察到的結(jié)果 z ~ 時,觀察中的噪聲被傳遞給成本函數(shù),增加了過度擬合的可能性。在使用估計的結(jié)果? ,在權(quán)重的估計誤差W被轉(zhuǎn)移到成本函數(shù)。如果學習模型存在缺陷,例如規(guī)格錯誤,這將非常重要。這兩種成本函數(shù)之間的爭論將主導我們模型的最終設計,我們即將介紹。
3. 決策驅(qū)動的正則化
4 數(shù)字插圖
5. 結(jié)論
我們?yōu)槁?lián)合預測然后優(yōu)化問題提出了一個通用框架,我們稱之為決策驅(qū)動的正則化。 我們表明,無論起點是正則化、魯棒性還是后悔的觀點,它都可以直接或近似地恢復。 通過概括文獻中的兩個模型(Zhu et al. 2020 中的 JERO 和 Elmachtoub 和 Grigas 2020 中的 SPO+),我們的框架為我們提供了分析這些模型性能的工具。 我們發(fā)現(xiàn) SPO+ 在低錯誤規(guī)格下可能表現(xiàn)不佳,這可能會給最近將 SPO+ 擴展到高度通用的模型(例如神經(jīng)網(wǎng)絡)或應用于深度學習框架的嘗試蒙上不祥之兆,這些模型預計會運行低水平的錯誤 -規(guī)格。
我們建議將這些方法轉(zhuǎn)換為類似 SPO+ 的混合模型。
在我們的框架中,我們引入了決策驅(qū)動正則化器的概念,并允許根據(jù)成本函數(shù)中的歧義對其進行定義。 這種成本函數(shù)歧義的概念與機器學習其他領域(特別是強化學習)中類似的現(xiàn)有概念有關。 此外,可用于塑造學習過程的決策問題的存在提供了檢查結(jié)構(gòu)下學習的新技術,它打開了可能將結(jié)構(gòu)編碼為決策問題的大門。 這些聯(lián)系為未來的研究提供了誘人的機會,我們希望以此作為本文的結(jié)尾。
總結(jié)
以上是生活随笔為你收集整理的Decision-Driven Regularization A Blended Model for Predict-then-Optimize的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python编写摇骰子游戏_python
- 下一篇: 小李子日记