【论文翻译笔记】Test Roll: Profit-Maximizing A/B Tests
Feit E M, Berman R. Test & Roll: Profit-Maximizing A/B Tests[J]. Marketing Science, 2019: 1038-1058.
摘要:
營銷人員通常使用A/B測試作為一種工具,在測試階段比較營銷處理,然后將性能更好的處理部署到剩余的消費者群體中。雖然這些測試傳統上是通過假設檢驗來分析的,但我們將其重新定義為在測試的機會成本(某些客戶接受次優治療)和向其余人群部署次優治療相關的潛在損失之間的明確權衡。
我們得到了利潤最大化測試規模的一個閉式表達式,并表明它比通常推薦的假設檢驗小得多,特別是當響應是噪聲或總人口很小時。使用小規模持留群體的常見做法可以通過不對稱的先驗知識加以合理化。所提出的測試設計實現了幾乎相同的預期遺憾與靈活,但是在廣泛的條件下很難實行多臂老虎機。
我們在三種不同的營銷環境中展示了該方法的優勢——網站設計、展示廣告和目錄測試——在這三種環境中,我們從過去的數據中估算出優先權。在這三種情況下,最優樣本量比傳統假設檢驗的樣本量要小得多,因此利潤更高。
關鍵詞:A/B檢驗、隨機對照試驗、市場試驗、貝葉斯決策理論、樣本量
引言
實驗是一個重要的工具,營銷人員在廣泛的設置,包括直郵,電子郵件,顯示廣告,社會媒體營銷,網站優化,和應用程序設計。在戰術營銷環境中,我們稱之為“測試和滾動”實驗(test&roll experiments),關于客戶反應的數據首先是在測試階段收集的,在測試階段,客戶子集被隨機分配給一個方案組。在接下來的滾動階段,營銷人員根據測試結果向所有剩余的客戶部署一種處理方案。
我們開發了一種新的方法來規劃和分析有限總體的A/B測試。而零假設檢驗是科學和醫學研究中的“黃金標準”,通常被推薦用于市場試驗(例如,Pekelis等人。(1)中的統計顯著性閾值對于以利潤最大化為目標的test&roll實驗來說是一個糟糕的決策規則,,原因有四。
首先,在典型顯著性水平(如α=0.05)下進行的假設檢驗,以避免得出兩種方案在不存在時表現不同的結論。然而,假設沒有部署成本,這些I類錯誤對利潤的影響很小。如果不能拒絕空值并且兩個處理產生相同的效果,則無論部署哪個處理,都將獲得相同的利潤。由于測試階段學習和滾動階段收益之間的利益權衡,基于零假設測試的保守樣本量通過讓太多人在測試中受到不太有效的處理而降低了總體預期利潤。
我們在第2節中重新構建了測試和滾動決策問題,重點關注利潤,并在測試的機會成本(某些客戶接受次優處理)和將次優處理部署到有限總體的剩余部分相關的損失之間做出明確的權衡。實際上,我們定義的問題可以看作是一個多臂老虎機的受限版本,其中只有兩個分配決策,而不是多個。
在第三節中,我們推導了利潤最大化樣本容量的一個新的封閉解,假設每個客戶的平均收入正態分布。在這個框架下的測試樣本量通常比(2)推薦的要小得多。與假設檢驗的樣本量隨(2)中的響應方差線性增加不同,利潤最大化樣本量隨響應的標準偏差呈次線性增加,導致當響應有噪聲時測試規模大大減小。利潤最大化的樣本也與可用總體規模的平方根成比例,因此它們自然地可以擴展到大環境和小環境。
利潤最大化測試在處理效果較大時以高概率識別出最佳執行的方案,從而實現了性能的提高;當處理效果較小時,由于處理選擇錯誤而造成的損失利潤(遺憾)很小。們還表明,利潤最大化樣本量的test&roll幾乎達到了與多臂老虎機問題的湯普森抽樣解決方案相同的遺憾水平(Scott 2010,Schwartz et al。2017年);兩人都有O(√N)的遺憾。盡管相對于多臂老虎機來說是次優的,但利潤最大化test&roll提供了一個透明的決策點,降低了操作復雜性,而不會造成顯著的利潤損失。
第4節將分析擴展到處理上具有不同優先級的情況,并提供了一種計算最佳樣本量的有效數值方法。這使我們能夠合理化使用不相等規模的方案組的常見做法,當兩種方案被認為是先驗地產生不同的反應時,例如比較媒體曝光與不曝光的測試或比較兩種不同價格的測試。
為了說明如何在實踐中設計測試和滾動實驗,第5節提供了三個實證應用:網站設計、在線展示廣告和目錄營銷。對于每個應用程序,我們根據之前的類似實驗來估計優先級。這些應用程序顯示了由不同的優先級產生的廣泛的測試設計,并顯示了零假設測試所支持的“一刀切”方法并不能使利潤最大化。在第6節中,我們將討論test&roll框架的潛在擴展以及對a/B測試人員的影響。有關命題和證明的完整陳述見附錄。
6 Discussion
我們提出了一種新的A/B測試樣本量規劃方法。與傳統的假設檢驗強調高可信度和高能力不同,我們的方法在滾動階段不部署最佳治療方案和在測試階段識別該方案的成本之間進行最佳平衡。實際結果是,推薦的測試規模要小得多,可以根據可用的總體規模進行調整。最重要的是,通過關注利潤,我們表明,不應阻止營銷人員進行小型測試并根據結果采取行動;雖然不完美,但此類較小的測試會增加利潤。利潤最大化測試可能會不平等地將測試樣本分成不同的處理方式,從而使我們能夠合理化營銷實驗中的這種常見做法。
利潤最大化的樣本量是為市場營銷活動而優化的,通常目標人群有限。直接營銷活動通過有限的郵件列表進行。媒體活動有固定的預算。網頁流量有限。在有限總體的情況下,公司應該確定哪種方案適合大多數人群,而不是在測試中“浪費”太多的暴露在次優方案上。
與完全動態方法不同(Bertsimas和Mersereau 2007,Chick和Frazier 2012,Schwartz等人。2017年)我們的方法適用于典型的A/B測試框架,除了推薦的樣本量外,不需要更改測試軟件。通過確定試驗階段的結束,限制必須維持的替代方案的數量,并提供關于正在選擇的方案、導致選擇這種方案的證據以及預期益處(或遺憾)是什么的透明度來降低操作復雜性。管理者可以在“滾動”前插入,這些特性使利潤最大化的測試和滾動對營銷人員具有吸引力。
我們的方法的一個局限性是不能總是選擇最好的方案。雖然錯誤率可能高于典型的零假設檢驗所保證的錯誤率,但是利潤最大化檢驗規模基于處理之間的潛在差異和由此產生的機會成本來優化設置錯誤率。在決策者不愿承擔風險或采用低于標準的治療成本非常高的情況下,如在臨床試驗中(Berry等人。1994,Cheng等人。2003年),那么其他方法是有必要的。
進一步擴展第2節中介紹的測試和滾動框架將是有用的。當一組實驗的數據變得可用時(Johnson等人。2017年,Bart等人。2014年),我們有機會為不同的測試環境開發一個先驗目錄。可以考慮其他形式的優先分配。例如,Stallard等人。(2017)使用近似值將測試和滾動框架擴展到指數族的響應分布。(Azevedo等人。2019年)專注于長尾巴的前科。
測試和滾動方法很容易擴展到兩種以上的治療方法,可能會考慮到相關的先驗知識,例如,對于一個堅持治療的群體和幾種替代的營銷治療方法。對于線下營銷治療來說,在不同治療方法之間切換的成本可能相當可觀,這也可以納入決策問題中。如果有可能將不同的治療方法應用于亞人群,那么識別異質治療效果的可能性(Hitsch和Misra 2018,Simester等人。2019)可在試驗設計中考慮。同樣,可以考慮反應中的時間依賴性,例如星期幾或“新穎性”影響。這些擴展都很自然地適合于test&roll框架。
總結
以上是生活随笔為你收集整理的【论文翻译笔记】Test Roll: Profit-Maximizing A/B Tests的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: level 1与level 2的区别
- 下一篇: 超声波测距仪设计制作