再好的产品经理跑不过一半的A/B测试
產品經理可能需要了解的第4個技術知識點:你會玩A/B測試嘛?
1. A/B測試簡介
2. A/B測試應用場景
3. A/B測試的實施步驟
一、A/B測試簡介
現在互聯網產品競爭越來越激烈,為了搶占先機,很多產品可能按照周甚至按照天來迭代。通常不管是產品迭代方向,還是決策的制定,都需要有數據來說話,有理有據。
A/B測試的本質是分離式組間試驗,也叫對照試驗,一開始在科研領域中廣泛的被應用,自2000年谷歌將這一方法應用在互聯網產品以來,A/B測試在國外越來越普及,已成為精細化產品運營的重要體現。
但是大部分產品迭代方式,是將優化好的版本直接發布給用戶,一旦遇到bug或者數據表現不好,就急急忙忙的緊急修復,有的甚至滾回發版前的那一版本。這種操作對內(公司內部)、對外(用戶)都會產生不可預估的影響和損失,多少人還記得某寶325事件,有興趣的伙伴自行查詢了解。
在產品設過程中存在多個方案時,比如按鈕是放在上面好,還是下面好,那該如何決策呢?這時候就要用到A/B測試了。
簡單的來說,A/B測試就是為了同一目標制定兩個兩個版本,這兩個版本只有某些地方不一樣,其他功能保持一致。例如:兩個版本只有按鈕顏色不一樣,這時候將用戶流量分成兩組,一部分用戶使用A版本(也就是實驗組),另一部分用戶使用B版本(也就是對照組)。
等到運營一段時間后,分別統計兩組用戶的數據表現,然后對比兩組數據進行對比分析,最后選擇效果最好的方案投入“生產”。
二、A/B測試應用場景
上面簡單的介紹A/B測試是什么,現在一起看看它在日常工作中體現在哪些場景。
(1) UI的優化
這是比較容易忽視的場景。我們經常說專業人做專業事,通常設計稿都有UI部門主導,其余部門只是配合建議,然后他們酌情修改。
不像功能的設計,存在著很多理性的邏輯,邏輯可以確定哪種方案好,哪種方案不好。UI的優化現實情況,經常是你說你有理,他說有理,更多的是基于自己的審美感。
例子:某平臺免費領取按鈕轉化率實驗
原始版本和優化版本的唯一區別是按鈕的顏色(按鈕背景顏色和文字顏色),這個改變10分鐘就可以完成,但是轉化率立刻提高36.98%。
(2) 文案變化
這種場景與UI變化的場景差不多,更多的是基于自己的判斷。
例子:某平臺注冊按鈕文字的測試
在某平臺的首頁上,有一個注冊的按鈕。為了能夠提高訪客的注冊率,運營團隊決定采用A/B測試的方法對按鈕的說明文字進行測試。在這次試驗中,他們設計了兩個版本的說明文字,一個是“注冊”而另一個是“免費試用”。本次試驗使用了全部的流量,兩個版本各50%,一共進行了10天。
試驗的結果表明,文字為“免費試用”的版本要比另一個版本的注冊率要高出98%!觀察統計顯著性指標,我們可以看到在經歷了初期的波動之后,數據開始趨于穩定并最終一直保持在99%以上。
這說明了試驗結果是完全可信的。我們應該采用“免費試用”的說明文字,這個方案具有更高的流量轉化效率,能夠帶來了更多的收益。
(3) 頁面布局
主要指的是同頁面中的不同元素的布局排列方式。
例子:某電商網站注冊功能布局
團隊安排了為期30天的A/B測試,為兩個測試版本分配了均等的流量,即各占50%,結果注冊模塊布局在左側勝出,提交表單設計在頁面的左側的提交率相對右側提高了30.8%。
(4) 算法優化
根據用戶的歷史記錄推薦相似內容,還是根據相似興趣用戶的行為推薦相關內容,又或是根據內容本身的相關性給用戶推薦?
例子:某資訊應用推薦算法實驗
這次測試在后臺系統中部署了三種推薦算法,當業務系統想要去獲取推薦內容的時候,會依據engine_name的值去調用對應的推薦算法程序接口來獲得推薦內容,最后返回給用戶。當用戶點擊這些推薦的內容時,就認為完成轉化。本次實驗一共進行了一周的時間,抽取了3%的全網流量。
結果表明,最好的推薦算法比最差的推薦算法點擊率要高出55%。統計顯著性指標的結果也超過了95%,試驗可以認定為有效。最終,該資訊應用在全網都采用了最佳的推薦算法。
(以上涉及到的例子均來自:云眼網站-https://www.eyeofcloud.com)
三、A/B?測試的實施步驟
A/B 測試核心的思想是多個方案并行測試,每個方案有一個或者多個變量,最后分析結果優勝劣汰。那一起看看如何操作A/B 測試:
(1) 分析現狀
為什么要做A/B 測試?比如通過當前數據分析發現注冊率、轉化率非常低,并在轉化路徑中找到問題,嘗試優化。
(2) 確立優化目標
建議大家要確立可量化的、可以落實到某一個具體功能點的、可實施的小目標,比如通過按鈕的UI優化,將轉化率提升15%,如果目標設置的太大太寬泛,可能就不好落地。
(3) 衡量指標
用來描述實驗結果的指標,如下單轉化率 = 下單人數 / 瀏覽人數,或者跳出率等等。
(4) 制定方案
基于原始版本制定多個優化方案,最后進行方案結果對比。如改變按鈕位置或顏色將使其更加突出,提高轉化率。
(5) 樣本數量
選取多少的樣本對實驗的結果至關重要,不能跟著感覺走,選一個差不多的數量,比如幾千幾萬。
樣本量越大,影響面也就越大。對于一些探索性的實驗來說,可能有一些負面影響。如果讓全部用戶都接觸到,顯然是不恰當的。
選擇恰當數量的樣本量,要根據實驗而定,那么我們該如何確定所需的樣本量呢?下面提供一個計算樣本數量的小工具:
在上述工具中,輸入原始版本的轉化率、優化版本的轉化率和統計顯著性,即可計算出所需樣本的數量大小,省時省力。
計算出樣本數量后,再根據網站或App每天的訪問數,即可計算出試驗所需的時間,公式如下。
試驗所需的時間 = 所需樣本數量大小 / 每天訪問數
(6) 測試方案:這里介紹用戶終端如何對接某一第三方A/B 測試平臺,首先根據不同終端(Web、Android、IOS等)安裝對應的SDK,然后設置編輯編輯方案、目標、業務URL,分配流量等一系列操作。
下圖就是該平臺《用戶使用手冊PDF》,感興趣的小伙伴,或需要文中提到的小工具,均可留言回復【test】獲取,不是文末留言哦。
(7) 收集數據
如果是使用第三方平臺SDK的話,將會自動收集之前設置好的衡量指標,否則只能通過手動埋點去獲取。
(8) 分析結果
對于一個A/B測試來說,結果主要分成兩種:有效和無效。無效的A/B測試實驗對于團隊來說,其實是非常寶貴的經驗,避免以后再犯同樣的錯誤。
而對于有效的A/B測試來說,我們成功通過實驗提升了產品的轉化率,這時我們可以把優勝的版本正式推送給全部用戶,以實現產品用戶的有效增長。
有效或者無效可依據統計顯著性指標,一般來說,統計顯著性要大于95%才認為A/B測試結束,但是,統計顯著性達到95%有時需要很長的測試周期,考慮到機會成本,比如為了盡快推出新特性搶占市場先機,統計顯著性達到90%也是可以接受的,但需要知道這是有一定風險的。
(具體了解統計顯著性:https://www.eyeofcloud.com/175.html)
當然很多小伙伴可能看了文章后,對統計顯著性還是不了解,太過于復雜難懂,下面介紹一款工具。
小工具主要功能:根據A、B版本的訪問數和轉化數,計算出轉化率和統計顯著性數值,并給出可信度結論。
統計顯著性數值:≥95%:優化版本和原始版本之間有顯著的統計差異,轉化率的“改進”是可信的;
統計顯著性數值:90%~95%:優化版本和原始版本之間的統計差異存有疑問,轉化率的“改進”是存有疑問的;
統計顯著性數值:<90%:優化版本和原始版本之間沒有顯著的統計差異,轉化率的“改進”是不可信的。
關于A/B測試,先分享這些,歡迎各位小伙伴查缺補漏,每天學廢一個小技術知識點,和技術打成一片~
如果你喜歡這篇文章,歡迎關注上面的公眾號
最后,我建立了各大城市的產品交流群,想進群小伙伴加微信:yw5201a1??我拉你進群。
關注微信公眾號:產品劉?可領取大禮包一份。
··················END··················
今日研報:阿里巴巴達摩院發布《2022十大科技趨勢》,公眾號后臺回復“?科技趨勢”,即可下載完整PDF文件。
申明:報告版權歸?阿里巴巴達摩院?獨家所有,此處僅限分享學習使用,如有侵權,請聯系小編做刪除處理。
RECOMMEND
推薦閱讀
打造優秀B端產品需求分析流程&要點
線下實戰2.0
分享一個PRD文檔
面試題,你還有什么想問我的么?
點擊“閱讀原文”
查看更多干貨
總結
以上是生活随笔為你收集整理的再好的产品经理跑不过一半的A/B测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: List<Object> 转List<S
- 下一篇: CentOS安装Mysql8各种坑。。。