當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Decision-Driven Regularization A Blended Model for Predict-then-Optimize

發(fā)布時間：2023/12/20 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 Decision-Driven Regularization A Blended Model for Predict-then-Optimize 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要

在上下文優(yōu)化中，決策者尋求最佳決策以最小化成本，該成本基于觀察到的特征而變化。這種上下文在許多業(yè)務應用程序中很常見，從按需交付和零售運營到投資組合優(yōu)化和庫存管理。在本文中，我們研究了預測然后優(yōu)化的方法，該方法首先了解結(jié)果如何從特征中產(chǎn)生，然后根據(jù)這些結(jié)果選擇最佳決策。由于無法獲得真實結(jié)果，我們在文獻中發(fā)現(xiàn)成本函數(shù)的定義存在歧義。為了解決這個問題，我們提出了一個混合的預測然后優(yōu)化框架，該框架可能會導致對結(jié)果的預測有偏差，但可以輕松地將優(yōu)化問題納入預測階段。這是通過決策驅(qū)動的正則化實現(xiàn)的。

我們批判性地表明，可以從三個角度來解決預測然后優(yōu)化問題，即正則化、魯棒優(yōu)化和后悔最小化方法；并證明這些觀點等效于或可以自然地近似以得出我們提出的模型。因此，我們的框架概括了 Elmachtoub 和 Grigas（2020）中的 SPO+ 和 Zhu 等人中的 JERO 等模型。(2020)。基于我們的框架，我們提出了混合模型，我們在數(shù)值上展示了在低錯誤規(guī)格下優(yōu)于 SPO+

１引言

在不確定性設置下的許多決策中，優(yōu)化目標和約束是通過使用數(shù)據(jù)來估計的。名義上，這可以寫成以下成本最小化問題

公式

對于一些決策變量 y ∈ Y 和一些未觀察到的參數(shù) z。一個例子是自適應路由的上下文，例如按需交付服務所面臨的上下文（也在 Elmachtoub 和 Grigas 2020 中討論過）。假設決策者要選擇 d 條路線來運送包裹。
然后，z 可能代表在這些路線中的每條路線上花費的未觀察到的時間，而 y 可以代表選擇哪條路線的決定。總共花費的時間為 c(y; z) = y >z。
這個問題是歷史背景。最近，重點是如何使用可能描述未觀察到的結(jié)果 z 的數(shù)據(jù)來做出正確的決策 y，同時認識到這些數(shù)據(jù)并不能完全代表生成它們的 z 的真實分布。這導致了數(shù)據(jù)驅(qū)動的穩(wěn)健優(yōu)化模型（例如 Van Parys 等人 2020、Sutter 等人 2020）的工作流，其中分布以模糊集為特征，通常在某種發(fā)散度量下（Ben -Tal 等人 2013，Lam 2016 年），或構(gòu)建為圍繞每個數(shù)據(jù)點的球，例如在 Wasserstein 歧義集中（Gao 等人 2017，Mohajerin Esfahani 和 Kuhn 2018）。

1.1 上下文隨機優(yōu)化

研究的重點越來越多地轉(zhuǎn)移到存在可能有助于估計未觀察到的 z 的附加信息的設置。我們將表示為 x 的這些信息有時稱為特征（或輔助信息或協(xié)變量）。決策者希望根據(jù)此附加信息 y(x)（den Hertog 和 Postek 2016）做出不同的決定。回到自適應路由的例子，這里，如果決策者有 n 個包裹要交付，那么可以想象，這些包裹中的每一個的最佳路線選擇應該不同。但當然，每個包裹在這些路線上實際花費的時間是未知的，可能會因目的地、一天中的時間、當前的擁堵情況、當前的天氣等因素而有所不同。這些因素在做出決定的點，它們形成了特征。特別是，決策者擁有一個歷史數(shù)據(jù)集，有助于推斷旅行時間與此類特征之間的關系。

此設置通常稱為上下文隨機優(yōu)化（或有時稱為決策感知學習或聯(lián)合預測和優(yōu)化）。它越來越普遍，可以在從按需交付（Liu 等人，2020 年）到零售運營（Ferreira 等人，2016 年，Perakis 等人，2018 年）以及投資組合優(yōu)化（Ban 等人，2018 年）等各種環(huán)境中看到。 2018）到庫存管理（Craig 和 Raman 2016、Qi 等人 2020、Siegel 和 Wagner 2020）等等。

通常的提法是一個可能在這種情況下寫的是以下優(yōu)化問題：

公式1

其中 y( · ) 是決策者希望解決的決策規(guī)則，在一些被考慮為 Y 的函數(shù)類別中，結(jié)果 z 和特征 x 之間存在一些固有的但目前未知的關系 z|x .

這樣的表述構(gòu)成了 Deng 和 Sen（2018 年）、Bertsimas 和 McCord（2019 年）、Bertsimas 和 Kallus（2020 年）、Kallus 和毛澤東（2020 年）、Kannan 等人的最佳特征作品的起點。

(2020)。在這種情況下，函數(shù)類 Y 的選擇對于確保易處理性很重要。

最簡單的是線性決策規(guī)則（例如，在 Beutel 和 Minner 2012、Ban 和 Rudin 2019 中提出的）。在某些情況下，如果利用結(jié)構(gòu)（即 z 和 x 之間關系的性質(zhì)），可以考慮更復雜的類，例如 Bertsimas 等人。(2019)，作者考慮了決策的樹結(jié)構(gòu)，在這種情況下是治療組的分配。

使用 (1) 中第二種形式的替代方法需要估計期望 Ez|x。通過將決策構(gòu)建為加權(quán)樣本平均近似 (SAA) 的解決方案，提出了一種解決此類公式的方法。在這里，權(quán)重將被最優(yōu)確定，例如，在 Bertsimas 和 Kallus (2020) 中，作者通過回歸方法選擇權(quán)重，例如 k-最近鄰 (kNN)、核、分類和回歸樹 (CART)，或隨機森林（RF）。Ban 和 Rudin (2019) 也提出了這種方法來解決報童問題。

1.2 先預測后優(yōu)化

該文獻的一個子流特別研究了以下解決確定性問題的方法，

公式2

其中，z是一些估計器，用于與所述特征量x，其被稱為預測而變化的結(jié)果。這稱為預測然后優(yōu)化 (PTO) 框架，因為它涉及兩個階段。首先，在預測階段，估計?從數(shù)據(jù)獲悉。這可以通過一個學習過程來實現(xiàn)，該過程估計一些假設的參數(shù)模型系列的權(quán)重，將結(jié)果與特征相關聯(lián)。然后在隨后的優(yōu)化階段，（2）使用所述估計z為解決代替未觀察到的結(jié)果。傳統(tǒng)上，這兩個階段是分開完成的（參見例如 Fisher 和 Vaidyanathan 2014、Ferreira 等人 2016、Glaeser 等人 2019），即
估計?通過最大化在歷史數(shù)據(jù)預測精度構(gòu)成，是無知后續(xù)優(yōu)化問題的。
然而，有越來越多的證據(jù)在文獻中，它指向?qū)щ姷拇蝺?yōu)預測-則-優(yōu)化分開（參見例如Liyanage和Shanthikumar 2005，Mundru 2019）。許多這樣的方法，最大限度地提高精度導致零偏估計。在形式上，這不會以及解決分鐘y的問題進行∈ yC（Y;的Ez | X [Z]）通常不等同于（1）。在第2節(jié)之后，我們將提供在為什么連方法，最大限度提高準確性和不會導致零偏估計，不會是最佳的更多的理由。
這些結(jié)果的存在提示方法的搜索條件的導致非零偏置估計? ，以及結(jié)合有關于成本函數(shù)c信息（· ; ·在其中形成這些估計的方式）。在這里，我們將它們稱為“聯(lián)合預測然后優(yōu)化” 。早期的嘗試是經(jīng)驗優(yōu)化（例如 Haussler 1992，Bartlett 和 Mendelson 2006），它最大限度地減少了訓練數(shù)據(jù)可能導致的決策損失。然而，它并不總是易于處理的，特別是當作為所選估計器的函數(shù)的最優(yōu)決策沒有封閉形式的表示時。當訓練數(shù)據(jù)不足時，它也有可能過度擬合，導致性能不佳（如 Kao 等人 2009 所指出的）。
另一個最早的嘗試是 Kao 等人。(2009)，旨在通過尋求與預測準確性的權(quán)衡來解決經(jīng)驗優(yōu)化模型的潛在過度擬合問題。這是通過零偏差權(quán)重和從經(jīng)驗優(yōu)化獲得的權(quán)重的凸組合在參數(shù)設置中完成的。這種在解決方案空間或優(yōu)化目標中直接結(jié)合預測精度和成本函數(shù)的概念，后來也得到了 Kao 和 Van Roy（2014 年）以及 Bertsimas 等人的回應。(2019)。
雖然高錕等人的作品。（2009）和花王和Van羅伊（2014）更具體地集中于特殊情況下，諸如二次成本函數(shù)而在后者的主成分分析，作品下一波旨在解決聯(lián)合預測-則-優(yōu)化一般估計上下文和成本函數(shù)。懷爾德等。（2019），例如，嘗試共同解決用于估計?和（2）中，通過使用組合的優(yōu)化技術。Gupta和Rusmevichientong（2021）具體地放大到小數(shù)據(jù)政權(quán)提出兩類關于貝葉斯估計和正則化方法。他們還提到關于他們的論文偏差修正。
關于我們的工作，Elmachtoub 和 Grigas（2020 年）、Tulabandhula 和 Rudin（2013 年）以及 Zhu 等人的論文。(2020) 最密切相關。在 Elmachtoub 和 Grigas (2020) 中，作者提出了一個模型，該模型試圖找到使遺憾最小化的一組預測變量。由于這可能會導致非凸公式，作者提出了一個凸松弛，他們證明了 Fisher 與原始模型一致。最近，他們的模型引起了極大的關注（獲得了后續(xù)跟進，例如 El Balghiti 等人 2019、Mandi 等人 2020、Elmachtoub 等人 2020），盡管 Hu 等人。(2020) 反駁說，這種方法可能有一個缺點，例如收斂速度較慢。
Tulabandhula 和 Rudin (2013) 直接將決策目標納入預測問題的損失函數(shù)中，并將其稱為同步過程。在朱等人。(2020)，作者試圖在參數(shù)模型中錯誤預測權(quán)重但位于損失函數(shù)幾何結(jié)構(gòu)下預測權(quán)重的鄰域內(nèi)的前提下，穩(wěn)健地優(yōu)化決策。他們的模型可以解釋為先預測再優(yōu)化的模型，其中估計量由最壞情況的權(quán)重構(gòu)成。此外，Tulabandhula 和 Rudin (2013) 的結(jié)果將類似的穩(wěn)健優(yōu)化公式與他們提出的模型聯(lián)系起來。
我們將在后面的第 2 節(jié)中詳細介紹這些作品的選擇。

1.3方法和貢獻
在本文中，我們在聯(lián)合預測然后優(yōu)化設置中工作，在那里我們尋找有偏見的預測器，當與真實結(jié)果進行衡量時，這些預測器可以導致低成本政策。這是通過決策驅(qū)動的正則化將決策納入學習過程來完成的，該正則化捕獲如果在預測階段選擇了特定的權(quán)重選擇，可以獲得決策的最佳可能最優(yōu)值。特別是，在這項工作中，我們做出了以下貢獻：我們發(fā)現(xiàn)在predictthen-optimize框架下估計成本函數(shù)存在固有的歧義，并提出了一個近似真實成本函數(shù)的替代函數(shù)（命題1）；灣我們以文獻中的思想為基礎，并提出了一個通用框架，將預測的選擇與其對成本函數(shù)的影響聯(lián)系起來，作為決策驅(qū)動的正則化；C。我們展示了可以從三個角度來解決預測然后優(yōu)化問題，即正則化、魯棒優(yōu)化和后悔最小化的角度；并證明這些觀點自然會導致類似的公式（定理 1 和 2）；d. 其結(jié)果是，我們證明了模型朱等人提出。(2020) 和 Elmachtoub 和 Grigas (2020) 是我們模型的特例（分別是命題 3 和 4）。此外，我們建議修改Elmachtoub和Grigas（2020） “ S模式我們低誤規(guī)范下數(shù)字顯示跑贏大盤。
在這里，我們想指出的是，雖然有大量工作將穩(wěn)健優(yōu)化與正則化聯(lián)系起來（正如我們將在第 3.1 節(jié)中討論的那樣），但遺憾最小化和穩(wěn)健優(yōu)化之間的關系不太清楚，文獻中也很少討論。我們的貢獻 C. 增加了這個討論。通過繪制魯棒優(yōu)化和后悔最小化之間的聯(lián)系，我們能夠概括 Elmachtoub 和 Grigas（2020）以及 Zhu 等人的工作。(2020)。
提出的這些模型是從不同的角度構(gòu)建的，并導致明顯不同的公式。因此，我們要在此強調(diào)，兩個模型都是特例的框架的存在并非顯而易見。
由于類似的想法納入成本為學習目標花王等人已經(jīng)信奉。（2009），花王和Van羅伊（2014）和Bertsimas等。（2019），我們需要時間來這里從它們分化我們的工作。在Kao等。（2009）和花王和Van羅伊（2014），所提出的權(quán)重躺在線鄰接零偏置權(quán)重和經(jīng)驗優(yōu)化解決方案; 在我們的模型中，我們搜索了權(quán)重的整個空間。在Bertsimas等。（2019），它們的模型公式假定是基于樹設定特定決策結(jié)構(gòu)，并且如果它容易延伸到其中的決定不限制一般性設定目前尚不清楚。因此，相對于這三部作品，我們的論文集中在更一般的情況下，當遇到顯著新的挑戰(zhàn)。在這方面，我們的范圍是最類似于Elmachtoub和Grigas（2020年），Tulabandhula和魯丁（2013），和朱等人。(2020)。
論文組織在介紹之后，第 2 節(jié)專門描述預測然后優(yōu)化框架。之后，我們在第 3 節(jié)中提出了決策驅(qū)動的正則化框架，并說明從穩(wěn)健優(yōu)化或后悔最小化的角度進行處理會導致相同的模型。第 4 節(jié)用數(shù)字說明了我們在 DDR 模型中描述的行為。我們在第 5 節(jié)中總結(jié)了一些評論。為了便于閱讀，我們將所有證明推遲到附錄 A 中。

2 預測再優(yōu)化框架

考慮一個決策者，他的目標是借助數(shù)據(jù)來預測未來結(jié)果，從而最大限度地降低成本。我們將其表示為決策變量 y ∈ Y ? R d 和成本函數(shù) c(y; z) : Y × Z 7 → R的優(yōu)化問題，其中 z ∈ Z ? R s 是要預測的結(jié)果向量。理想情況下，如果決策者知道真正的結(jié)局Z = Z ^ 1，他們可以解決以下問題，以獲得最佳的政策：
分鐘? ∈ yC（Y; Z ），（3）
我們稱之為甲骨文“小號的問題。
然而，Z是無法得知的決策者，因此需要進行估算。相反，決策者能夠觀察特征向量 x ∈ X ? R p 。在這里，我們假設結(jié)果 z 可以完全由特征 x 決定，即存在一些函數(shù) g(x) : X 7 → R s 使得 z = g(x)。雖然預言將能夠解決分鐘y ∈ yC（Y; Z （X））對于任意x，以獲得它的決策規(guī)則Y（x）時，并因此有效地解決了分Y（x）的實施例[C（Y（ X）; Z （X））]，

決策者不知道這種關系? （X），因此需要學習這個函數(shù)g。在參數(shù)設置中，決策者認為函數(shù) g 位于一系列參數(shù)模型 f(x; w) : X × R q 7 → Z 中。在這里，我們將假設存在一些真實但不可觀察的權(quán)重瓦特使得G（X）= F（X; W ）。在現(xiàn)實中，決策者將觀察結(jié)果嘈雜? ?，這是從該機構(gòu)?產(chǎn)生?= F（X ?; W ）+
?關于訓練特征 x ? ，對于某些實現(xiàn)
?均值零和組件方式獨立誤差
. 特征和觀察到的結(jié)果形成了一個訓練數(shù)據(jù)集 DN = {(x ～ n, z ～ n)n ∈ [N]}，這是決策者的隱私。這里，N是歷史觀測的數(shù)量和[N] = {1，2，…，N}是一組正指數(shù)高達N.決策者利用此數(shù)據(jù)集來推斷真權(quán)重w 。這導致決策者以形成用于瓦特的估計，表示為瓦特，從該預測? ：= F（X ; W ），用于任何新觀察到的特征量x的形成。預測?被用來解決確定性優(yōu)化問題，分鐘? ∈ yC（Y; Z ）。

這被稱為預測然后優(yōu)化框架。它包括兩個階段：第一階段（預測）估計W上的權(quán)重從通過一些學習訓練數(shù)據(jù)集DN

方案L：DN 7 → R Q，W = L（DN）。(4)

使得結(jié)果?可以通過F為預測（X; W ）的任何一組特征的x。

階段2（優(yōu)化）測試僅包含新特性X數(shù)據(jù)集DM ，被呈現(xiàn)給決策者，誰使用z = F（X ; W ）代替z與對于問題（3）：

分鐘? ∈ yC（Y; Z ）：=分鐘Y ∈ yC（Y; F（X ; W ）），（5）

獲得最優(yōu)解y * （Z ）∈ ARG分鐘y ∈ yC（Y; Z ）。

在我們繼續(xù)之前，我們總結(jié)了表 1 中的符號。

分離預測和優(yōu)化

在文獻中，這是經(jīng)常可以看到模型，其中決策者傳導預測和優(yōu)化分開，即決策者估計權(quán)重w通過使用accuracybased度量和因子不考慮成本函數(shù)C（· ; · )。讓函數(shù)：Z × Z 7 → R 是衡量兩個結(jié)果之間接近程度的指標。例如，可以是任何標準，（Z ; Z ?）= KZ - ? ?KQ中，q ≥ 1。因此，一個預測模型（與權(quán)重w相關聯(lián)）的預測如何準確地描述了結(jié)果Z，我們稱之為保真度（也稱為模型擬合），可以通過與此接近度度量 L(w) = Ex,z[(f(x; w), z)] 相關的損失函數(shù)來衡量。這是使用數(shù)據(jù)集 DN 在樣本中估計的，通過

公式

這樣，一種可能的方式，從而獲得估算權(quán)重w是通過最小化損失函數(shù)

L(w)，即

公式

例如，均方誤差（MSE）（Z ; Z ?）= KZ - ? ?K 2個2對應于普通最小二乘（OLS）與表示為瓦特估計權(quán)重OLS。損失函數(shù)也可能包含一個正則化項，如LASSO，L(w) = 1 NP n ∈ [N] f(x ～ n; w); z ～ n + θ kwk1 或嶺回歸，L(w) = 1 NP n ∈ [N] ` f(x ～ n; w); z ～n + θ kwk 2 2 。

這種損失的功能集中在保真度，但他們并不能保證以后的優(yōu)化性能良好。例如，Liyanage和Shanthikumar（2005）研究了報童問題，并表明，從不同的估計和優(yōu)化導致次優(yōu)的解決方案中獲得的最佳訂貨量的無偏估計。Elmachtoub和Grigas（2020）示出了一個非偏置估計器，即，OLS估計量，會導致更差的性能在隨后的優(yōu)化階段而偏置估計器可作為oracle執(zhí)行幾乎為好。

我們努力在圖 1 中解釋為什么會這樣。在這里??，我們考慮將在第 3 節(jié)中介紹的決策驅(qū)動正則化模型。我們在兩個軸上繪制，由 MSE（帶點的藍線）測量的保真度，以及在正則化程度λ的范圍內(nèi)，由 me 成本（帶十字的橙色線）衡量的決策性能，每個都對應于從模型中學到的一些權(quán)重 w。這是根據(jù)我們稍后在第 4 節(jié)中的模擬研究改編的。如果通過最小化損失函數(shù)來尋求模型的最佳保真度，他們將得出與某個λ ≈ 1.0相對應的權(quán)重 w 的選擇，這對于決策問題——決策問題的最佳權(quán)重選擇對應于λ ≈ 1.7。原因在于后續(xù)的優(yōu)化過程，該過程接受預測（作為權(quán)重的函數(shù)）并輸出決策和最佳值。這個過程和最優(yōu)值在輸入中不是線性的，即預測。因此，在這種非線性變換下，不能保證損失曲線的最小值仍然是成本曲線的最小值。

正式地說，如果學習方案是一致的，則不會被錯誤指定并收斂于真理。然后在極限情況下，在規(guī)律性條件下（例如，有界和統(tǒng)一連續(xù)性），單獨的預測然后優(yōu)化模型中的決策仍將收斂到最佳解決方案。

盡管如此，這不足以保證有限樣本的良好性能，這也是我們完全執(zhí)行正則化的原因——正則化模型在實現(xiàn)更高的預測精度方面優(yōu)于非正則化模型，盡管這兩種模型在極限。只要我們留在有限數(shù)據(jù)集的空間，圖1中的成本和保真度曲線之間的差總是存在（保存針對具體情況如在Ho-阮和K描述?升? ? ? C-Karzan 2020）。換句話說，在有限的數(shù)據(jù)下，僅僅追求保真是不夠的。

因此，與損失函數(shù)相反，重點將是找到一組最小化成本函數(shù)的權(quán)重。一種可能的方法是利用有關決策過程的信息來改變結(jié)果的估計。在預測然后優(yōu)化模型的上下文中，我們將這種聯(lián)合預測然后優(yōu)化稱為。具體來說，目標是在預測然后優(yōu)化框架的第一個預測階段設計一些新方案 L * ，

瓦特= L * （DN），

其中，相對于傳統(tǒng)的方案L，通過最小化損失函數(shù)的保真度就不會成為選擇W上的唯一標準。相反，新的方案L *渴望選擇瓦特下一些新的標準，以盡量減少c中的費用（Y * （Z ）; Z ），作為相對于真預言的結(jié)果?測量，其中y * （Z ）從選擇權(quán)重w產(chǎn)生的決策。在這方面，它與預期的遺憾，例HC（Y * （Z ）; Z ）-分鐘Y ∈ yC（Y; Z ）1。

聯(lián)合預測然后優(yōu)化

概括地說，我們長期研究的預測，當時的優(yōu)化文獻中的流，目的是尋求權(quán)重w是最小化成本函數(shù)，聯(lián)合預測，當時的優(yōu)化。在這里，我們專門討論與我們稍后在第 3 節(jié)中提出的模型密切相關的模型。

**智能“預測然后優(yōu)化” 。**當目標在決策變量 y 和結(jié)果 z 中是雙線性的，即 c(y; z) = y >z，Elmachtoub 和 Grigas (2020) 提出了一個模型來尋找預測問題的權(quán)重，從而最小化遺憾：w SPO = L SPO（DN）：= ARG分鐘瓦特1 NX? ∈ [N] HC y * （Z n）的; z ～ n ? min yn ∈ Y c(yn; z ～ n) i 。(SPO)

該制劑SPO可以潛在地非凸。相反，下面的代孕，這是凸和Fisher一致的SPO，建議。這個被命名為“ SPO + ” 。

arg min w 2 1 NX n ∈ [N] c y ? (z ～ n); f(x ～ n; w) + 1 NX n ∈ [N] max yn ∈ Y c(yn; z ～ n) ? 2c yn; f(x ~ n; w) 。(SPO+)

在他們的論文中，作者說明，通過他們的模型放棄忠誠做出的預測（具體而言，當損失函數(shù)L（·換取高性能的決策，導致降低成本）已從該模型的語句現(xiàn)在消失了）。稍后我們將在第4節(jié)顯示，一個不需要支付模型精度如此沉重的代價，并且仍然保留成本minimizatio不錯的表現(xiàn)。

同時過程。Tulabandhula 和 Rudin (2013) 提出以優(yōu)化問題為目標對損失函數(shù)進行正則化，并將其稱為同步過程 (SP)：

arg min w L(w) + λ min y ∈ Y c y; F（X ; W），（SP）

其中 L(w) 是訓練數(shù)據(jù)集的預測損失，λ ∈ R 是正則化參數(shù)。在這里，作者評估了測試數(shù)據(jù)中的數(shù)據(jù)點 x 訓練點的成本函數(shù)。這可能會帶來一些擔憂。首先，使用測試數(shù)據(jù)來評估訓練的重點。這可能會帶來一些擔憂。首先，使用測試數(shù)據(jù)評估成本函數(shù)與使用訓練數(shù)據(jù)評估損失函數(shù)不一致。因此，該模型可能無法推廣，特別是當測試數(shù)據(jù)偏離訓練數(shù)據(jù)時。其次，在實踐中，當新數(shù)據(jù)以新測試數(shù)據(jù)的形式定期提供給模型時，模型每次都會產(chǎn)生一組不同的權(quán)重 w，因此本質(zhì)上是不同的模型。
聯(lián)合估計和魯棒性優(yōu)化。 朱等人。 (2020) 探索聯(lián)合估計和魯棒性優(yōu)化模型，旨在最大化預測損失 L(w) 錯誤估計的魯棒性，同時滿足平均（估計）成本目標 τ：

公式杰羅！

其中 w ?是損失函數(shù)的最小值，w ? ∈ arg min w L(w)。在這里，我們改編了朱等人的原始模型。(2020) 求解全局最優(yōu)解 yn ≡ y，適用于決策 yn 適用于每個數(shù)據(jù)點的情況。這樣做是為了確保與所考慮的其他模型的一致性。

**SP 和 JERO 的模型之間存在隱含的聯(lián)系。在 Tulabandhula 和 Rudin (2013) 中，作者提出了一個穩(wěn)健的優(yōu)化模型，隨后證明 SP 等效于該模型。除了兩個方面，JERO 幾乎等同于這個強大的優(yōu)化模型。首先，JERO 在評估成本函數(shù)時避免使用測試數(shù)據(jù)，而是使用訓練數(shù)據(jù)。如前所述，這種差異在實踐和概念上都很重要，但在數(shù)學上是微不足道的，并且這種修改為使用訓練數(shù)據(jù)的 SP 模型與其穩(wěn)健對應模型之間的等效結(jié)果仍然像以前一樣。其次，JERO 涉及穩(wěn)健性水平ρ的校準，無需交叉驗證。這可以被認為是顯著的差異。對此，我們提出兩點意見。之一，杰羅最終仍然在于預測-則-優(yōu)化模型，其中所選擇的權(quán)重w的境界是最壞的情況下權(quán)重w的不確定性集合U下（ρ ）為最佳ρ 。二、往后看，SP和JERO都放在同一個模型下，為了方便參考，只參考JERO。

**成本模糊的問題。**在利用在預測階段優(yōu)化問題的結(jié)構(gòu)，這三款機型都使用了成本函數(shù)在設計自己的方案采摘w ^ 。盡管如此，精明的讀者會在這一點上，在上述三種情況下，成本函數(shù)的不同的定義來實現(xiàn)-在SPO，作者已經(jīng)定義使用所觀察到的結(jié)果在數(shù)據(jù)z在其遺憾成本?; 在SP，F（X ; W）被使用，其表示作為估計所述測試數(shù)據(jù)的費用; 而在 JERO 中，成本由對訓練數(shù)據(jù)的預測形成，而不是 f(x ~ ; w)。代替下真結(jié)果z上被限定的真實成本函數(shù)的;（Z y）的，換句話說，每一個模型都使用了不同的替代物的費用函數(shù)c的定義中，C（Y; Z ）。實際上，在學習點永遠不會知道真實的預測以及真實的成本函數(shù)，即成本函數(shù)中存在歧義。

在這里，出于與上述相同的原因，我們首先排除在成本函數(shù)的估計中使用測試數(shù)據(jù)作為 SP 的情況。如果我們限制自己在學習階段只使用訓練數(shù)據(jù)集 DN，那么定義成本函數(shù)有兩種選擇。第一種選擇是跟隨 SPO+ 并利用觀察到的結(jié)果 z ～。我們稱以這種方式定義的成本函數(shù)為經(jīng)驗成本— c(y; z ? )。另一種選擇是利用所估計的或預測的結(jié)果?對于給定的權(quán)重w，如在杰羅，做完這導致估計成本- ? ?; f(x ~ , w) 。單獨使用它們中的任何一個都會丟失另一個捕獲的有用信息，并導致不同類型的偏見。在使用觀察到的結(jié)果 z ~ 時，觀察中的噪聲被傳遞給成本函數(shù)，增加了過度擬合的可能性。在使用估計的結(jié)果? ，在權(quán)重的估計誤差W被轉(zhuǎn)移到成本函數(shù)。如果學習模型存在缺陷，例如規(guī)格錯誤，這將非常重要。這兩種成本函數(shù)之間的爭論將主導我們模型的最終設計，我們即將介紹。

3. 決策驅(qū)動的正則化

4 數(shù)字插圖

5. 結(jié)論

我們?yōu)槁?lián)合預測然后優(yōu)化問題提出了一個通用框架，我們稱之為決策驅(qū)動的正則化。我們表明，無論起點是正則化、魯棒性還是后悔的觀點，它都可以直接或近似地恢復。通過概括文獻中的兩個模型（Zhu et al. 2020 中的 JERO 和 Elmachtoub 和 Grigas 2020 中的 SPO+），我們的框架為我們提供了分析這些模型性能的工具。我們發(fā)現(xiàn) SPO+ 在低錯誤規(guī)格下可能表現(xiàn)不佳，這可能會給最近將 SPO+ 擴展到高度通用的模型（例如神經(jīng)網(wǎng)絡）或應用于深度學習框架的嘗試蒙上不祥之兆，這些模型預計會運行低水平的錯誤 -規(guī)格。
我們建議將這些方法轉(zhuǎn)換為類似 SPO+ 的混合模型。
在我們的框架中，我們引入了決策驅(qū)動正則化器的概念，并允許根據(jù)成本函數(shù)中的歧義對其進行定義。這種成本函數(shù)歧義的概念與機器學習其他領域（特別是強化學習）中類似的現(xiàn)有概念有關。此外，可用于塑造學習過程的決策問題的存在提供了檢查結(jié)構(gòu)下學習的新技術，它打開了可能將結(jié)構(gòu)編碼為決策問題的大門。這些聯(lián)系為未來的研究提供了誘人的機會，我們希望以此作為本文的結(jié)尾。

總結(jié)

以上是生活随笔為你收集整理的Decision-Driven Regularization A Blended Model for Predict-then-Optimize的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python编写摇骰子游戏_python
下一篇：小李子日记