终于有人把A/B测试讲明白了
導讀:對照實驗有時也稱為A/B測試、A/B/n 測試(強調多變體測試)、實地實驗、隨機對照實驗、分拆測試、分桶測試和平行飛行測試。本文帶你了解一些相關術語及應用案例。
作者:羅恩·科哈維(Ron Kohavi)、黛安·唐(Diane Tang)、許亞(Ya Xu)
來源:大數(shù)據(jù)DT(ID:hzdashuju)
一個精確的測量勝過一千個專家的意見。
——海軍準將格雷斯·霍珀
2012年,必應(微軟的搜索引擎)的一名員工提出了關于改進搜索頁廣告標題陳列方式的一個想法 (Kohavi and Thomke 2017):將標題下方的第一行文字移至標題同一行,以使標題變長,如圖1.1所示。
▲圖1.1 改進必應上廣告陳列方式的實驗
在成百上千的產品建議中,沒有人預料到這樣一個簡單的改動竟然成了必應歷史上最成功的實現(xiàn)營收增長的想法!
起初,這個產品建議的優(yōu)先級很低,被埋沒在待辦列表中超過半年。直到有一天,一個軟件工程師決定試一試這個從編程角度來說非常簡單的改動。
他實現(xiàn)了該想法,并通過真實的用戶反饋來評估它:隨機給一部分用戶顯示新的標題陳列方式,而對另一部分用戶依舊顯示老版本。用戶在網(wǎng)站上的行為,包括廣告點擊以及產生的營收都被一一記錄。
這就是一個A/B測試的例子:一種簡單的用于比較A和B兩組變體的對照實驗。A和B也分別稱為對照組和實驗組。
該測試開始后的幾個小時,“營收過高”的警報被觸發(fā),提示實驗有異常。實驗組,也就是新的標題陳列方式,產生了過高的廣告營收。這種“好到難以置信”的警報非常有用,它們通常能提示嚴重的漏洞,如營收被重復上報(雙重計費)或者因網(wǎng)頁出錯而導致只能看到廣告。
然而就這個實驗而言,營收增長是真實有效的。在沒有顯著損害其他關鍵用戶體驗指標的情況下,必應的營收增長高達12%,這意味著僅在美國,當年的營收增長就將超過1億美金。這一實驗在后來很長一段時間里被多次重復驗證。
這個例子體現(xiàn)了關于線上對照實驗的幾個關鍵主題:
一個想法的價值很難被預估。在這個案例中,一個價值超過每年1億美金的簡單的產品改動被耽擱了好幾個月。
小改動可以有大影響。一個工程師幾天的工作就能帶來每年1億美金的回報。當然這樣極端的投資回報率(return-on-investment, ROI)也很罕見。
有很大影響的實驗是少見的。必應每年運行上萬個實驗,但這種小改動實現(xiàn)大增長的案例幾年才出一個。
運行實驗的啟動成本要低。必應的工程師可以使用微軟的實驗平臺ExP,來便利地科學評估產品改動。
綜合評估標準(overall evaluation criterion,OEC)必須清晰。在這個案例中,營收是OEC的一個關鍵組成,但僅營收本身不足以成為一個OEC。以營收為唯一指標可能導致網(wǎng)站滿是廣告而傷害用戶體驗。必應使用的OEC權衡了營收指標和用戶體驗指標,包括人均會話數(shù)(用戶是否放棄使用或者活躍度增加)和其他一些成分。關鍵宗旨是即使營收大幅增長,用戶體驗指標也不能顯著下降。
接下來先介紹對照實驗的術語。
01 線上對照實驗的術語
對照實驗有一段長而有趣的歷史,我們的網(wǎng)站有相關分享(Kohavi, Tang and Xu 2019)。對照實驗有時也稱為A/B測試、A/B/n 測試(強調多變體測試)、實地實驗、隨機對照實驗、分拆測試、分桶測試和平行飛行測試。
很多公司廣泛使用線上對照實驗,例如愛彼迎(Airbnb)、亞馬遜(Amazon)、繽客(Booking.com)、易貝(eBay)、臉書(Facebook)、谷歌(Google)、領英(LinkedIn)、來福車(Lyft)、微軟(Microsoft)、奈飛(Netflix)、推特(Twitter)、優(yōu)步(Uber)、Yahoo!/Oath和Yandex(Gupta et al. 2019)。
這些公司每年運行成千上萬個實驗,實驗有時涉及百萬量級的用戶,測試內容更是涵蓋各個方面,包括用戶界面(User Interface, UI)的改動、關聯(lián)算法(搜索、廣告、個性化、推薦等)、延遲/性能、內容管理系統(tǒng)、客戶支持系統(tǒng)等。
實驗可運行于多種平臺或渠道:網(wǎng)站、桌面應用程序、移動端應用程序和郵件。
最常見的線上對照實驗把用戶隨機分配到各變體,且這種分配遵循一以貫之的原則(一個多次訪問的用戶始終會被分配至同一變體)。
在開篇必應的例子中,對照組是原本的廣告標題陳列方式,實驗組是長標題陳列方式。用戶在必應網(wǎng)站上的互動被以日志的形式記錄,即監(jiān)測和上報。根據(jù)上報的數(shù)據(jù)計算得到的各項指標可以幫助我們評估兩個變體之間的區(qū)別。
最簡單的對照實驗有兩個變體,如圖1.2所示:對照組(A)和實驗組(B)。
▲圖1.2 一個簡單的對照實驗:A/B測試
以下,我們將遵循Kohavi和Longbottom等人(Kohavi and Longbottom (2017), Kohavi, Longbottom et al. (2009))使用的術語進行介紹,并提供其他領域的相關術語。更多關于實驗和A/B測試的資源可以在本章結尾的補充閱讀部分中找到。
1. 綜合評估標準(Overall Evaluation Criterion, OEC)
實驗目標的定量測量。例如,你的OEC可能是人均活躍天數(shù),指示實驗期間用戶有幾天是活躍的(即有訪問并有其他行動)。OEC的增長意味著用戶更頻繁地訪問了網(wǎng)站,這是好的結果。
OEC需要在短期內(實驗期間)可測量,同時要對長期戰(zhàn)略目標有因果關系的驅動作用。在搜索引擎的例子中,OEC可以是使用量(如人均會話數(shù))、關聯(lián)(如成功的會話、成功需時)以及廣告營收的綜合考量(有些搜索引擎不會用到所有這些指標,有些則會用到更多種類的指標)。
在統(tǒng)計學中,OEC也常稱為響應變量或因變量(Mason, Gunst and Hess 1989, Box, Hunter and Hunter 2005)。其他的同義詞還有結果、評估和適應度函數(shù)(Quarto-vonTivadar 2006)。
雖然選擇單一指標(可能是一個對多重目標進行加權組合的指標)常常是必須的和高度推薦的(Roy 2001, 50, 405-429),但實驗可能有多重目標,且分析也可以采用平衡的分析看板的方法(Kaplan and Norton 1996)。
2. 參數(shù)
對照實驗中被認為會影響OEC或其他我們感興趣的指標的變量。參數(shù)有時也稱為因素或變量。參數(shù)的賦值也稱為因子水平。一個簡單的A/B測試通常只有一個參數(shù),兩個賦值。對于線上實驗,單變量多賦值(如A/B/C/D)的設計非常普遍。
多變量測試,也稱多元檢驗,則可用于同時評估多個參數(shù)(變量),比如字體顏色和字體大小。多變量測試可以幫助實驗者在參數(shù)間有交叉影響時找到全局最優(yōu)值。
3. 變體
被測試的用戶體驗,一般通過給參數(shù)賦值實現(xiàn)。對于簡單的A/B測試,A和B就是兩個變體,通常被稱為對照組和實驗組。在某些文獻中,變體只指代實驗組。而我們把對照組也看作一種特殊的變體——用于進行對比的原始版本。
比如,實驗中出現(xiàn)漏洞時,你需要中止這個實驗,并確保所有用戶被分配到對照組這個變體。
4. 隨機化單元
以偽隨機化(如哈希)過程將單元(如用戶或頁面)映射至不同變體。正確的隨機分配過程非常重要,它可以確保不同變體的群體在統(tǒng)計意義上的相似性,從而高概率地確立因果關系。
映射時需遵循一以貫之和獨立的原則(即如果以用戶為隨機化單元,那么同一個用戶應該自始至終有一致的體驗,并且一個用戶被分配到某一變體的信息不會透露任何其他用戶的分配信息)。
運行線上對照實驗時,非常普遍且我們也強烈推薦的是以用戶為隨機化單元。有些實驗設計會選擇其他的隨機化單元,例如頁面、會話或用戶日(即同一用戶在由服務器決定的每個24小時的窗口內體驗不變)。
正確的隨機分配是至關重要的!如果實驗設計為各個變體獲得相同比例的用戶,那么每個用戶被分配到任何一個變體的概率應該是一樣的。千萬不要輕視隨機分配。下面的例子解釋了正確進行隨機分配的挑戰(zhàn)和重要性。
20世紀40年代,RAND公司需要為蒙特卡羅方法尋找隨機數(shù),為此,他們制作了一份由脈沖機器生成的百萬亂數(shù)表。然后由于硬件偏移,原表被發(fā)現(xiàn)有嚴重的偏差,導致需要為新版重新生成隨機數(shù)(RAND 1995)。
對照實驗起初應用于醫(yī)藥領域。美國退伍軍人事務部曾做過一個用于結核的鏈霉素的藥物試驗,由于醫(yī)師在甄選程序中出現(xiàn)了偏差,這一試驗最終宣告失敗(Mark 1997)。英國有一項類似的試驗以盲態(tài)程序甄選并獲得了成功,成為對照試驗領域的分水嶺時刻(Doll 1998)。
任何因素都不應影響變體的分配。用戶(隨機化單元)不能被隨意地分配(Weiss 1997)。值得注意的是,隨機不代表“隨意或無計劃,而是一種基于概率的慎重選擇”(Mosteller, Gilbert and Mcpeek 1983)。Senn (2012)探討了更多關于隨機分配的迷思。
02 為什么進行實驗?相關性、因果關系和可信賴度
假設你在一家提供訂閱服務的公司(比如奈飛)工作,公司每個月有X%的用戶流失(取消訂閱)。你決定引入一個新功能,觀察到使用這個新功能的用戶的流失率僅為一半:X%/2。
你可能據(jù)此推斷出因果關系:該新功能使得流失率減半。由此得出結論:如果我們能讓更多的用戶發(fā)現(xiàn)這一功能并使用它,訂閱數(shù)將會激增。錯了!根據(jù)這個數(shù)據(jù),我們無法得出該功能降低或增加用戶流失率的結論,兩個方向皆有可能。
同樣提供訂閱服務的微軟Office 365有一個例子表明了這種邏輯的謬誤。使用Office 365時看到錯誤信息并遭遇系統(tǒng)崩潰的用戶有較低的流失率,但這并不代表Office 365應該顯示更多的錯誤信息或者降低代碼質量使得系統(tǒng)頻繁崩潰。
這三個事件都有一個共同的因素:使用率。產品的重度用戶看到較多的錯誤信息,經(jīng)歷較多的系統(tǒng)崩潰,其流失率也較低。相關性并不意味著因果關系,過度依賴觀察結果往往導致做出錯誤的決策。
1995年,Guyatt et al. (1995)引入了證據(jù)可信度等級來為醫(yī)學文獻做出推薦評級,Greenhalgh在之后關于循證醫(yī)學的實踐討論中進一步擴展了這個模型(1997, 2014)。
圖1.3展示了一個翻譯成我們的術語的基礎版證據(jù)可信度等級(Bailar 1983, 1)。隨機對照實驗是確立因果關系的黃金準則。對隨機對照實驗的系統(tǒng)性檢閱(即統(tǒng)合分析)則有更強的實證性和普適性。
▲圖1.3 用于評估實驗設計質量的證據(jù)可信度等級 (Greenhalgh 2014)
這一領域還有更多更復雜的模型,比如牛津循證醫(yī)學中心提出的證據(jù)分級(Level of Evidence)(2009)。
谷歌、領英和微軟的實驗平臺每年可以運行成千上萬個線上對照實驗,并提供可信賴的實驗結果。我們相信線上對照實驗有以下特性:
它是以高概率確立因果關系的最佳科學方法。
能夠檢測其他技術難以檢測到的微小變動,比如隨時間的變化(靈敏度)。
能夠檢測到意想不到的變動。雖然常被低估,但很多實驗發(fā)掘了一些對其他指標出乎意料的影響,比如性能的降低、系統(tǒng)崩潰和出錯的增加或是對其他模塊的點擊的吞噬。
一個重點是實驗中可能出現(xiàn)陷阱,我們需要給出能讓實驗結果更可信賴的方法。線上對照實驗有其獨一無二的線上收集大量可靠數(shù)據(jù)、隨機分配和避免或檢測陷阱的能力。當線上對照實驗不可行的時候,我們才推薦使用其他可信度較低的方法,如觀察性研究。
03 有效運行對照實驗的必要元素
科學嚴謹?shù)膶φ諏嶒灢⒉荒苡糜谒械臎Q策。比如,你無法在一個投資并購(M&A)場景中運行對照實驗,因為我們無法讓投資并購和它的虛擬事實(沒有該投資并購)同時發(fā)生。
接下來我們將梳理有效運行對照實驗的必要元素(Kohavi,Crook and Longbotham 2009),并提出機構的宗旨。
存在可以互不干擾(或干擾很小)地被分配至不同變體的實驗單元,比如實驗組的用戶不會影響對照組的用戶。
有足夠的實驗單元(如用戶)。為了對照實驗的有效性,我們推薦實驗應包含上千個實驗單元:數(shù)目越多,能檢測到的效應越小。好消息是,即使是小型的軟件初創(chuàng)公司通常也能很快地累積足夠的用戶,從檢測較大的效應開始運行實驗。隨著業(yè)務的增長,檢測較小變動的能力會變得越來越重要(例如,大型網(wǎng)站必須有能力檢測出用戶體驗關鍵指標和營收百分比的微小變動),而實驗靈敏度也會隨著用戶基數(shù)的增長而提高。
關鍵指標(最好是OEC)是經(jīng)過一致同意的,且可以在實踐中被評估。如果目標難以測量,那么應對使用的代理指標達成一致??煽康臄?shù)據(jù)最好能以低成本被廣泛地收集到。在軟件領域,記錄系統(tǒng)事件和用戶行為通常比較簡單。
改動容易實現(xiàn)。軟件的改動一般比硬件的要簡單。然而即使是軟件的改動,有些領域也需要一定級別的質量控制。推薦算法的改動很容易實現(xiàn)和評估,但美國飛機的飛行控制系統(tǒng)軟件的改動則需經(jīng)過美國聯(lián)邦航空管理局一整套不同的批準流程。服務器端軟件比客戶端軟件要容易改動得多,這就是為什么從客戶端軟件請求服務越來越普遍,從而使服務的升級和改動可以更快實現(xiàn)并運行對照實驗。
大部分復雜的線上服務都有或者可以有這些必要組成部分,來運行基于對照實驗的敏捷開發(fā)流程。很多“軟件+服務”的實現(xiàn)也能相對容易地達到要求。Thomke指出機構可以通過實驗與“創(chuàng)新系統(tǒng)”的結合實現(xiàn)利益最大化(Thomke 2003)。敏捷軟件開發(fā)就是這樣的創(chuàng)新系統(tǒng)。
對照實驗不可行的時候,也可以用建?;蚱渌膶嶒灱夹g。關鍵是,如果可以運行對照實驗,那么它將提供評估改動的最可靠且最靈敏的機制。
關于作者:羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術院士,曾任微軟的技術研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數(shù)據(jù)挖掘和個性化推薦總監(jiān)。他擁有斯坦福大學計算機科學博士學位,論文被引用超過40 000次,其中有3篇位列計算機科學領域引用最多的1 000篇論文榜。
黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數(shù)據(jù)分析和基礎設施、線上對照實驗及廣告系統(tǒng)方面的專家。她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位,在移動網(wǎng)絡、信息可視化、實驗方法、數(shù)據(jù)基礎設施、數(shù)據(jù)挖掘和大數(shù)據(jù)方面擁有專利和出版物。
許亞(Ya Xu)是領英數(shù)據(jù)科學與實驗平臺負責人,曾撰寫了多篇關于實驗的論文,并經(jīng)常在頂級會議和大學演講。她曾在微軟工作,擁有斯坦福大學的統(tǒng)計學博士學位。
本文摘編自《關鍵迭代:可信賴的線上對照實驗》,經(jīng)出版方授權發(fā)布。
延伸閱讀《關鍵迭代:可信賴的線上對照實驗》
點擊上圖了解及購買
轉載請聯(lián)系微信:DoctorData
推薦語:愛彼迎、谷歌、領英A/B測試領軍人物撰寫,亞馬遜、谷歌、微軟和領英等公司互聯(lián)網(wǎng)產品成功的秘訣!谷歌院士JeffDean、臉書首任CTO、沈向洋等37位專家推薦。本書基于近些年實驗領域的研究成果和實踐經(jīng)驗,對實驗的方法和應用做了很好的全景式描述,是一本兼顧系統(tǒng)性的方法論和基于實戰(zhàn)的經(jīng)驗法則的書籍。
劃重點????
干貨直達????
多圖詳解數(shù)據(jù)中臺建設框架(建議收藏)
中國人工智能最高獎,頒給了這些人
什么是架構?網(wǎng)絡架構中都有什么?終于有人講明白了
大數(shù)據(jù)平臺的3個核心功能
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優(yōu)質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計,99%的大咖都關注了這個公眾號
????
總結
以上是生活随笔為你收集整理的终于有人把A/B测试讲明白了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是机器学习?有哪些分类?怎样上手开发
- 下一篇: 硅谷大佬提前剧透未来!6本书,助你走在A