2020-08-24
AB Testing在軟體工程領(lǐng)域是一個(gè)耳熟能詳?shù)脑~,大家都知道AB Test的重要性。當(dāng)產(chǎn)品經(jīng)理提出的需求不合里(太難做)時(shí),程序員們心理總是os,你怎么知道客戶到底要什么,不也是拍腦袋想的嗎,這時(shí)候我們可能會(huì)提出另一種作法,并要求他(她)去做一個(gè)AB Test來驗(yàn)證哪一個(gè)作法更好。
但是,大家可能不知道,要做一個(gè)成功的AB Test實(shí)驗(yàn),它背后的成本是非常巨大的。首先,你必須做許多的分析,了解用戶習(xí)慣與需求,然后做出合理的假設(shè)并決定變數(shù)(variation),接著,需要工程部門協(xié)助將AB Test進(jìn)行實(shí)作并采集相關(guān)數(shù)據(jù),有了數(shù)據(jù)之后,產(chǎn)品經(jīng)理需要根據(jù)假設(shè)建立模型來驗(yàn)證假設(shè),不斷迭代最后獲得一個(gè)結(jié)論。這個(gè)成本在B2B中尤其龐大,影響因素非常的多,包含取樣率、用戶特性等,這也使得許多B2B領(lǐng)域的產(chǎn)品經(jīng)理對(duì)AB Test望而怯步。
那么,到底在B2B領(lǐng)域中要不要做AB Test呢?本篇大哉問就要帶大家來探討下這個(gè)問題了!
什么是AB Test
在開始大哉問之前,想先跟大家科普一下何謂AB Test,也讓我們在后續(xù)討論時(shí)能有更多的共鳴。
AB Test是一種以統(tǒng)計(jì)為導(dǎo)向的測試方法,在一個(gè)頁面中,針對(duì)某一場景進(jìn)行兩種或以上的假設(shè),并在同一時(shí)間內(nèi)對(duì)不同的用戶進(jìn)行測試,以觀察用戶的反應(yīng)。
AB Test通常包含以下的流程:
首先,在進(jìn)行AB測試之前,產(chǎn)品經(jīng)理需要先針對(duì)場景進(jìn)行研究,并建立假說。接著,從假說當(dāng)中歸納出變數(shù),來決定實(shí)驗(yàn)如何進(jìn)行,有了這些前置步驟后,就能進(jìn)入到真正的測試環(huán)節(jié),將兩種假說實(shí)現(xiàn)到產(chǎn)品當(dāng)中并投放給不同的人群進(jìn)行使用以蒐集數(shù)據(jù)。最后,產(chǎn)品經(jīng)理需要針對(duì)這些反饋數(shù)據(jù)進(jìn)行分析,以獲得實(shí)驗(yàn)結(jié)果并確立方案。
我們用幾個(gè)真實(shí)的案例來描述一個(gè)AB Test是如何進(jìn)行的。
真實(shí)案例:form表單設(shè)計(jì)
第一個(gè)案例是某云計(jì)算產(chǎn)品相關(guān)公司的報(bào)價(jià)單產(chǎn)生系統(tǒng)。產(chǎn)品經(jīng)理在設(shè)計(jì)階段調(diào)研了自家產(chǎn)品目前用戶的報(bào)價(jià)習(xí)慣與流量,歸納出了A與B兩種報(bào)價(jià)單的設(shè)計(jì)假說。其中A版本是一份詳細(xì)的報(bào)價(jià)單,里面涉及了詳細(xì)的配置與規(guī)格,設(shè)計(jì)上給人一種專業(yè)感,沒有過多的點(diǎn)綴。B版本是一份看起來比較平易近人的報(bào)價(jià)單,需要填寫的資料相對(duì)較少。這兩種設(shè)計(jì)分別表示了兩種假設(shè),第一種假設(shè)是一份詳細(xì)的報(bào)價(jià)單能凸顯專業(yè)度,使用戶相信專業(yè)并愿意來填寫報(bào)價(jià)單,另一個(gè)則假設(shè)簡單的填寫表格能讓用戶更有意愿來填寫。在變數(shù)上,包含了填寫的難易程度、美觀性、提交按鈕的顯易程度等等。
經(jīng)過假說與變量控制后,最后落地的就是上圖兩個(gè)版本的表單,產(chǎn)品經(jīng)理分別在同一時(shí)間對(duì)不同用戶投放并蒐集數(shù)據(jù)。經(jīng)過持續(xù)觀察語分析,最后B表單勝出,流量差距高達(dá)385%。證明了平易近人的表單設(shè)計(jì)更受用戶喜愛。
真實(shí)案例:DHL折扣廣告
第二個(gè)案例是國際知名快遞公司DHL的折扣廣告。產(chǎn)品經(jīng)理在設(shè)計(jì)廣告時(shí)設(shè)立了兩個(gè)假說,女性的廣告代言人更加吸引民眾的目光,以及,男性的廣告代言人更加吸引民眾的目光。因此,這里的變量就很明顯,角色的性別對(duì)流量的影響。經(jīng)過投放測試后發(fā)現(xiàn),女性的廣告代言人更加的吸引人,轉(zhuǎn)化率比男性代言人高了8個(gè)百分比,說明對(duì)民眾來說,女性代言人更具親和力且更愿意點(diǎn)擊購買,是不是很有趣?
可以把B2C領(lǐng)域的經(jīng)驗(yàn)直接套用到B2B領(lǐng)域嗎?
答案是不行的,兩個(gè)領(lǐng)域特性相差太大。如同前面所說的,一個(gè)成功的AB Test大概會(huì)經(jīng)歷幾個(gè)階段。包含研究、建立假說、建立與執(zhí)行實(shí)驗(yàn)、評(píng)估結(jié)果并驗(yàn)證假說等。
在實(shí)驗(yàn)過程中,實(shí)驗(yàn)結(jié)果通常有兩種可能,第一是實(shí)驗(yàn)結(jié)果具有強(qiáng)有力的統(tǒng)計(jì)論證以證明假說的正確性,二是實(shí)驗(yàn)結(jié)果不具有足以證明假說的證據(jù)(在AB Test中這很常發(fā)生)。如果你的實(shí)驗(yàn)具有強(qiáng)有力的證據(jù)支撐每一個(gè)假說并且實(shí)驗(yàn)的過程是很快的,那么這樣的AB Test將會(huì)非常有效率。在B2C場景中,假說相對(duì)容易形成,因?yàn)閿?shù)據(jù)量大,所蒐集的數(shù)據(jù)具備統(tǒng)計(jì)意義,更方便產(chǎn)品經(jīng)理形成假說,也因此做AB Test相對(duì)來說更有效率。然而,在B2B領(lǐng)域中就不是這么一回事了。因?yàn)锽2B的客戶面相的是公司,在取樣率上遠(yuǎn)遠(yuǎn)比不上C端用戶,這也導(dǎo)致B2B領(lǐng)域的統(tǒng)計(jì)特性薄弱,假說也相對(duì)難以形成。
另一個(gè)不行的原因在于流量。在B2C領(lǐng)域中,流量與收益常常是成正比關(guān)系,越多的流量就能帶來越多的收益,因此在進(jìn)行變量控制時(shí),流量總是會(huì)隨機(jī)地分配到一個(gè)或數(shù)個(gè)變量當(dāng)中。然而,在B2B領(lǐng)域中,流量不全然正比于收益,訪問B2B網(wǎng)站的用戶中,可能很大一部分是游客,他們可能是透過廣告或搜索進(jìn)到網(wǎng)頁當(dāng)中進(jìn)行調(diào)研。他們并不會(huì)花錢,因?yàn)樗麄兛赡苤皇瞧髽I(yè)員工的一員,沒有決定采購的權(quán)力。這使得許多在B2C領(lǐng)域中已經(jīng)耳熟能詳?shù)臎Q策模型變得毫無用武之地。
AB Test在B2B領(lǐng)域中的挑戰(zhàn)
B2B領(lǐng)域的產(chǎn)品經(jīng)理們現(xiàn)在面臨了三個(gè)AB Test的挑戰(zhàn):
1. 難以制定最佳的KPI指標(biāo)
在B2B場景中,我們所關(guān)注并且希望達(dá)到的結(jié)果往往是收入。理想上,我們在做實(shí)驗(yàn)時(shí),應(yīng)以收入為主要考量因子。在實(shí)際場景中,許多的B2B產(chǎn)品經(jīng)理會(huì)將目標(biāo)細(xì)化成使用潛在客戶的轉(zhuǎn)化率(如中長尾客戶)、渠道機(jī)會(huì)(如客戶合作等)與市場影響收入(如產(chǎn)品市場占有額)等評(píng)估目標(biāo),在SaaS中,可能會(huì)以LTV(生命周期總價(jià)值)作為主要的衡量指標(biāo)。?
如果你沒辦法測量這些指標(biāo),那就意味著你沒辦法最佳化它。現(xiàn)在市面上大多數(shù)的AB Test工具都是針B2C場景,這意味著你沒辦法直接套用這些工具,因?yàn)樗麄兯褂玫牧繙y指標(biāo)沒辦法滿足B2B的場景。
2. 需要大量的資源來進(jìn)行AB Test
假設(shè)我們要做一場最節(jié)省成本的AB Test實(shí)驗(yàn),那我們至少需要UED相關(guān)的設(shè)計(jì)師、前端開發(fā)工程師與數(shù)據(jù)分析工程師投入到這場實(shí)驗(yàn)當(dāng)中。投入的時(shí)間也不是短暫的(一兩個(gè)禮拜),因?yàn)橐粓龀晒Φ膶?shí)驗(yàn),必須長時(shí)間的觀察以獲取有效的樣本數(shù)及避免落入「錯(cuò)誤測試」當(dāng)中。在B2C領(lǐng)域中,測試的時(shí)間相對(duì)較短,因?yàn)闃颖緮?shù)可以很容易地被滿足,同時(shí)取樣本身基本符合常態(tài)分布。但在B2B領(lǐng)域中測試的時(shí)間相對(duì)會(huì)被拉長,除了樣本數(shù)的原因外,另一個(gè)重要因素是取樣偏差,因?yàn)樵贐2B領(lǐng)域中可能大多數(shù)的流量皆是訪客,只有少部分人能成為真正帶來收益的用戶。因此,同樣的人力資源在B2B的實(shí)驗(yàn)場中需要停留的時(shí)間就更久,需要分析的數(shù)據(jù)也更加復(fù)雜且可能無意義。
3. 需要很長的時(shí)間才能得到結(jié)果
如同2中所述,在B2B領(lǐng)域中因?yàn)闃颖緮?shù)不足與樣本偏差問題,會(huì)導(dǎo)致整體實(shí)驗(yàn)時(shí)間被拉長。然而,耗費(fèi)的時(shí)間可能還不止于此。一般來說,AB Test是一個(gè)周期性并且迭代的一個(gè)過程,因?yàn)槲覀冃枰鶕?jù)實(shí)驗(yàn)的結(jié)果來修正假說或重新定義變數(shù),這會(huì)使得本來花費(fèi)時(shí)間就長的實(shí)驗(yàn)變本加厲。也因此要獲得結(jié)果的時(shí)間會(huì)比B2C領(lǐng)域長的更多。
那B2B領(lǐng)域還需要做AB Test嗎?
看了上面那么多的挑戰(zhàn),我們還需要在B2B領(lǐng)域中做AB Test嗎?我的答案是肯定的。因?yàn)锳B Test所能帶來的收益也是巨大的。我認(rèn)為的優(yōu)點(diǎn):
1. AB Test可以幫助B2B產(chǎn)品更好的獲得業(yè)務(wù)反饋
B2B產(chǎn)品雖然在用戶體系上與B2C產(chǎn)品截然不同(客戶不一定是用戶),然而,我們依然可以透過服務(wù)好用戶來影響客戶的方式,來間接的增加收益。因此,怎么從AB Test當(dāng)中獲取用戶的反饋來改進(jìn)產(chǎn)品是很重要的。
2. AB Test可以幫助B2B產(chǎn)品增加流量
流量雖然在B2B產(chǎn)品中不是主要的衡量指標(biāo)(因?yàn)榕c收益不一定成正比),然而,它的邊際效益卻能間接的達(dá)成收益的目的。例如上面所提到的市場影響收入、渠道機(jī)會(huì)等等。因此,透過AB Test,我們可以更好地改善產(chǎn)品來提升流量以達(dá)成收益的目的。
3. AB Test可以幫助B2B產(chǎn)品更好的探索市場
有時(shí)候,我們會(huì)有許多的新需求與新想法,但我們卻不知道市場能不能接受它,這時(shí)候就能發(fā)揮AB Test真正的價(jià)值。
4. AB Test可以幫助B2B產(chǎn)品更好地增進(jìn)用戶體驗(yàn)
如上所述,用戶與客戶雖然在B2B場景中不是同一個(gè)人,但是有時(shí)候我們可以透過服務(wù)好用戶來進(jìn)階的影響客戶決策。例如在Dataworks產(chǎn)品中,良好的一個(gè)編輯體驗(yàn)與產(chǎn)品流程可以增加用戶的工作效率,并間接的影響客戶對(duì)Dataworks產(chǎn)品的評(píng)價(jià)。
5. AB Test可以幫助B2B產(chǎn)品漸進(jìn)的來迭代產(chǎn)品
透過AB Test,我們可以了解用戶對(duì)新功能或新版本的反饋,進(jìn)而增進(jìn)產(chǎn)品進(jìn)行優(yōu)化與迭代。
?
雖然在B2B領(lǐng)域中AB Test的成本相對(duì)來說高很多,但它的優(yōu)勢卻是無法取代的!
怎么用正確的方式在B2B領(lǐng)域中做AB Test?
這里總結(jié)了幾個(gè)在B2B領(lǐng)域中做AB Test的一些技巧。
1. 應(yīng)該將重點(diǎn)放在大的變化上而不是小的細(xì)節(jié)中
為什么將重點(diǎn)放在大的變化上?一般來說,AB Test是一種統(tǒng)計(jì)學(xué)的實(shí)驗(yàn)方式,并且像其他的統(tǒng)計(jì)實(shí)驗(yàn)一樣,它的可信度取決于樣本數(shù)的多寡。什么叫做足夠的樣本數(shù)取決于以下三個(gè)因素:
- 基礎(chǔ)轉(zhuǎn)化率
- 欲達(dá)到的轉(zhuǎn)化率提升情況
- 信賴區(qū)間
一般情況下,我們在做AB Test時(shí)會(huì)以95%來做為信賴區(qū)間,這也意味著有5%的情況會(huì)發(fā)生例外的情況。這也表示,當(dāng)我們有足夠多的樣本數(shù)時(shí),例外發(fā)生的可能性也越低。
根據(jù)一份報(bào)告指出,若我們希望在2%的基礎(chǔ)轉(zhuǎn)化率下再增加10%,那我們至少需要39488份樣本數(shù)才能達(dá)到95%的信賴區(qū)間; 同樣地,若我們希望在2%的基礎(chǔ)轉(zhuǎn)化率上再增加50%,則只需要1871個(gè)樣本數(shù)就能達(dá)到95%信賴區(qū)間。這之間差了21倍的樣本數(shù)。因此,越大的轉(zhuǎn)化率提升可以減少所需要的樣本數(shù)。
因?yàn)檫@些原因,B2B產(chǎn)品應(yīng)該考慮在一些大的改變上進(jìn)行AB Test,而不是一些小的改動(dòng),例如按鈕的顏色變化、或是增加一段注釋文字等。
例如上圖,根據(jù)AB 測試,版本B的轉(zhuǎn)化率提升了整整1.07倍,像這樣的測試基本上不需要太多的樣本數(shù)就能夠達(dá)到統(tǒng)計(jì)學(xué)上的意義。
2. 從個(gè)性化開始
「大的變化」的其中關(guān)鍵一點(diǎn)是從買家個(gè)性化訂制開始。
多數(shù)的B2B網(wǎng)站應(yīng)該為不同的買方提供一些個(gè)性化訂制的維度。一般AB Test的變數(shù)考量可以從端客戶、領(lǐng)域別或是商業(yè)模式來著手。
舉個(gè)例子,在某一個(gè)專業(yè)軟件網(wǎng)站中便用了個(gè)性化試驗(yàn)。試驗(yàn)中他們使用考量了三個(gè)主要的領(lǐng)域客戶:醫(yī)療、教育與金融。在分桶上,有50%的用戶分配到了個(gè)性化頁面,另外50%的用戶則維持原來標(biāo)準(zhǔn)的頁面。最后實(shí)驗(yàn)發(fā)現(xiàn):
- 透過個(gè)性化推薦的方式使業(yè)務(wù)增長了7%
- 個(gè)性化推薦的首頁增加了30%的點(diǎn)擊率
- 個(gè)性化推薦的頁面增加了10%的PV
- 周期同比增加了4%的業(yè)績
個(gè)性化訂制的收益不言而喻。
3. 用正確的工具做正確的事
在選擇工具時(shí),我們應(yīng)該正視到一點(diǎn),我們做的是B2B業(yè)務(wù)而非B2C業(yè)務(wù)。若依然按照B2C的方式來做測試
只會(huì)徒勞無功。
現(xiàn)今市面上許多的AB Test產(chǎn)品多半面向的是B2C的場景。雖然測試的方法與理論并無差別,但在實(shí)驗(yàn)變量與衡量實(shí)驗(yàn)結(jié)果的方法上卻天差地別,造成這個(gè)情況的主要原因有:
- 實(shí)驗(yàn)樣本數(shù)的差異
- 實(shí)驗(yàn)周期長短的差異
- 實(shí)驗(yàn)結(jié)果解讀的差異
在B2B當(dāng)中,因?yàn)樘焐臉颖緮?shù)劣勢,導(dǎo)致我們做起事來礙手礙腳的。為了彌補(bǔ)短版,我們應(yīng)該選擇一個(gè)合適的工具,這個(gè)工具能夠提供我們合適的算法來解讀實(shí)驗(yàn)結(jié)果,例如一些不需要大量樣本數(shù)的統(tǒng)計(jì)學(xué)方法。另外,能夠?yàn)锽2B場景提供更多的實(shí)驗(yàn)變數(shù)。
結(jié)語
AB Test在B2B場景中雖然充滿挑戰(zhàn),但我認(rèn)為仍有做的必要,因?yàn)樗鼛淼男б媸菦]有其他方法能夠取代的。為了更舒適的在B2B場景中進(jìn)行AB Test,我們應(yīng)該將重點(diǎn)放在大的變化上,使測試結(jié)果更具意義且節(jié)省成本開銷,此外,我們應(yīng)該從個(gè)性化開始,為不同的客戶「定制化」他的網(wǎng)頁。最后,我們應(yīng)該選用正確的工具來進(jìn)行AB Test。
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的2020-08-24的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 圆桌对话:云时代下,企业运维面临的挑战与
- 下一篇: 阿里云数据中台助力零售耐消品新客获取与转