【无标题】A\Btest
雙樣本獨(dú)立檢驗
這是兩款鍵盤布局不一樣的手機(jī)(A版本,B版本),你作為公司的產(chǎn)品經(jīng)理,想在正式發(fā)布產(chǎn)品之前知道,哪個鍵盤布局對用戶體驗更好呢?
首先,我們需要設(shè)置目標(biāo),用來衡量各個版本的優(yōu)劣,如果是電商網(wǎng)站,目標(biāo)可以是點(diǎn)擊率,注冊率,頁面停留時間等。
在這個鍵盤布局案例里,如果一個鍵盤布局對用戶打字時拼錯產(chǎn)生的影響較小,那么這個布局是符合用戶體驗習(xí)慣的。所以我們將目標(biāo)定為用戶打字時拼錯字產(chǎn)生的影響。
有了目標(biāo)以后,下一步就是采集數(shù)據(jù)。在這一部分,用戶會隨機(jī)分配到不同版本中,通過他們的交互行為會被直接檢測,并收集起來作為以后分析的重要數(shù)據(jù)。
我們隨機(jī)抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤布局A,B組使用鍵盤布局B。讓他們在30秒內(nèi)打出標(biāo)準(zhǔn)的20個單詞文字消息,然后記錄打錯字的數(shù)量。
我們將數(shù)據(jù)記錄在Excel中,A列是使用鍵盤布局A打錯字的數(shù)量,B列是使用鍵盤布局B打錯字的數(shù)量。
現(xiàn)在我們開始A/B測試
描述統(tǒng)計分析
我們開展調(diào)查研究并計算統(tǒng)計結(jié)果時,我們會在報告的第一部分進(jìn)行描述統(tǒng)計分析,例如平均值和標(biāo)準(zhǔn)差。描述統(tǒng)計量是研究的核心。告訴我們研究中發(fā)生的情況,應(yīng)該始終報告出來。
#文件路徑 fileNameStr='...\\test\\鍵盤AB測試.xlsx' #讀取Ecxcel數(shù)據(jù),統(tǒng)一先按照字符串讀入,之后轉(zhuǎn)換 xls = pd.ExcelFile(fileNameStr, dtype='object') data = xls.parse('Sheet1',dtype='object')data.head()data.dtypes
data.describe()
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
print(‘轉(zhuǎn)換后的數(shù)據(jù)類型:\n’,data.dtypes)
推論統(tǒng)計分析
原假設(shè):A版本和B版本沒有差別
選擇雙獨(dú)立樣本檢驗類型
在我們這個AB測試案例中,樣本大小是25(小于30),屬于小樣本。那小樣本的抽樣分布是否滿足t分布呢?因為t分布還要求總體分布近似正態(tài)分布,但是總體分布我們是不知道的,我們可以通過樣本數(shù)據(jù)集的分布來推斷總體分布。
通過觀察上面數(shù)據(jù)集分布圖,兩個樣本數(shù)據(jù)集都近似正態(tài)分布,滿足t分布的使用條件,所以抽樣分布是t分布
本次假設(shè)檢驗是雙獨(dú)立樣本t檢驗,雙尾檢驗
結(jié)果t= -4.05593853686 p_two= 0.000194574553072 df= 45.2781333114
#判斷標(biāo)準(zhǔn)(顯著水平)使用alpha=5% alpha=0.05 #做出結(jié)論 if(p_two< alpha): print('拒絕零假設(shè),有統(tǒng)計顯著')print('備選假設(shè):A版本和B版本有差異') else: print('接受零假設(shè),沒有統(tǒng)計顯著')print('零假設(shè):A版本和B版本沒有差異')由于t(45)=-4.05 , p=.00019>α=5%雙尾檢驗,拒絕原假設(shè),認(rèn)為A版本和B版本存在顯著差異
- 置信區(qū)間
置信區(qū)間:[樣本平均值 -t_ci ×標(biāo)準(zhǔn)誤差,樣本平均值 +t_ci ×標(biāo)準(zhǔn)誤差]
兩個平均值差異的置信區(qū)間,95置信水平 CI=[-2.762316,-2.677684]
置信區(qū)間是[-2.76,-2.68],平均下來,使用A鍵盤的錯誤數(shù)量要比B鍵盤的要少大約3到2個
效應(yīng)量
在假設(shè)檢驗中,我們給出了是否具有統(tǒng)計顯著性,也要給出效應(yīng)量,一起來判斷研究結(jié)果是否有意義
可采用差異指標(biāo)Cohen’s d=樣本1均值-樣本2均值/std
d值 0.2 0.5 0.8 對應(yīng)差異 小 中 大
或者相關(guān)度指標(biāo)R平方等不同指標(biāo)判斷
d= -1.32042983789
數(shù)據(jù)分析報告
- 描述統(tǒng)計分析
A版本打錯字?jǐn)?shù)量 平均是5.08個,標(biāo)準(zhǔn)差是2.06個
B版本打錯字?jǐn)?shù)量 平均是7.8個,標(biāo)準(zhǔn)差是2.65個 - 推論統(tǒng)計分析
- 假設(shè)檢驗
獨(dú)立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗,拒絕零假設(shè),統(tǒng)計顯著 - 置信區(qū)間
兩個平均值差值的置信區(qū)間, 95%置信水平 CI=[-2.76,-2.68] - 效應(yīng)量
d= - 1.32,效果顯著
- 假設(shè)檢驗
總結(jié)
以上是生活随笔為你收集整理的【无标题】A\Btest的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 停车场信息管理系统(SqlServer数
- 下一篇: 如何查看suse系统服务器sn,suse