當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【无标题】A\Btest

發(fā)布時間：2023/12/20 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了【无标题】A\Btest 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

雙樣本獨(dú)立檢驗

這是兩款鍵盤布局不一樣的手機(jī)(A版本，B版本)，你作為公司的產(chǎn)品經(jīng)理，想在正式發(fā)布產(chǎn)品之前知道，哪個鍵盤布局對用戶體驗更好呢？

首先，我們需要設(shè)置目標(biāo)，用來衡量各個版本的優(yōu)劣，如果是電商網(wǎng)站，目標(biāo)可以是點(diǎn)擊率，注冊率，頁面停留時間等。

在這個鍵盤布局案例里，如果一個鍵盤布局對用戶打字時拼錯產(chǎn)生的影響較小，那么這個布局是符合用戶體驗習(xí)慣的。所以我們將目標(biāo)定為用戶打字時拼錯字產(chǎn)生的影響。

有了目標(biāo)以后，下一步就是采集數(shù)據(jù)。在這一部分，用戶會隨機(jī)分配到不同版本中，通過他們的交互行為會被直接檢測，并收集起來作為以后分析的重要數(shù)據(jù)。

我們隨機(jī)抽取實驗者，將實驗者分成2組，每組25人，A組使用鍵盤布局A，B組使用鍵盤布局B。讓他們在30秒內(nèi)打出標(biāo)準(zhǔn)的20個單詞文字消息，然后記錄打錯字的數(shù)量。

我們將數(shù)據(jù)記錄在Excel中，A列是使用鍵盤布局A打錯字的數(shù)量，B列是使用鍵盤布局B打錯字的數(shù)量。

現(xiàn)在我們開始A/B測試

描述統(tǒng)計分析

我們開展調(diào)查研究并計算統(tǒng)計結(jié)果時，我們會在報告的第一部分進(jìn)行描述統(tǒng)計分析，例如平均值和標(biāo)準(zhǔn)差。描述統(tǒng)計量是研究的核心。告訴我們研究中發(fā)生的情況，應(yīng)該始終報告出來。

#文件路徑 fileNameStr='...\\test\\鍵盤AB測試.xlsx' #讀取Ecxcel數(shù)據(jù)，統(tǒng)一先按照字符串讀入，之后轉(zhuǎn)換 xls = pd.ExcelFile(fileNameStr, dtype='object') data = xls.parse('Sheet1',dtype='object')data.head()

查看每一列的數(shù)據(jù)類型
data.dtypes

描述統(tǒng)計信息
data.describe()

字符串轉(zhuǎn)換為數(shù)值（浮點(diǎn)型）
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
print(‘轉(zhuǎn)換后的數(shù)據(jù)類型：\n’,data.dtypes)

樣本平均值、樣本標(biāo)準(zhǔn)差

a_mean=data['A'].mean() b_mean=data['B'].mean() print('A版本平均值=',a_mean,'單位：打錯字?jǐn)?shù)量') print('B版本平均值=',b_mean,'單位：打錯字?jǐn)?shù)量') a_std=data['A'].std() b_std=data['B'].std() print('A版本樣本大小25，樣本標(biāo)準(zhǔn)差=',a_std,'單位：打錯字?jǐn)?shù)量') print('B版本樣本大小25，樣本標(biāo)準(zhǔn)差=',b_std,'單位：打錯字?jǐn)?shù)量')

推論統(tǒng)計分析

假設(shè)檢驗
原假設(shè)：A版本和B版本沒有差別
選擇雙獨(dú)立樣本檢驗類型
在我們這個AB測試案例中，樣本大小是25（小于30），屬于小樣本。那小樣本的抽樣分布是否滿足t分布呢？因為t分布還要求總體分布近似正態(tài)分布，但是總體分布我們是不知道的，我們可以通過樣本數(shù)據(jù)集的分布來推斷總體分布。

import seaborn as sns #查看數(shù)據(jù)集分布 sns.distplot(data['A']) plt.title('A版本數(shù)據(jù)集分布') plt.show() sns.distplot(data['B']) plt.title('B版本數(shù)據(jù)集分布') plt.show()

通過觀察上面數(shù)據(jù)集分布圖，兩個樣本數(shù)據(jù)集都近似正態(tài)分布，滿足t分布的使用條件，所以抽樣分布是t分布
本次假設(shè)檢驗是雙獨(dú)立樣本t檢驗，雙尾檢驗

import statsmodels.stats.weightstats as st ''' ttest_ind：獨(dú)立雙樣本t檢驗，返回的第1個值t是假設(shè)檢驗計算出的（t值），第2個p_two是雙尾檢驗的p值第3個df是獨(dú)立雙樣本的自由度 ''' t,p_two,df=st.ttest_ind(data['A'],data['B'],usevar='unequal' #兩個總體方差不一樣) print('t=',t,'p_two=',p_two,',df=',df)

結(jié)果t= -4.05593853686 p_two= 0.000194574553072 df= 45.2781333114

#判斷標(biāo)準(zhǔn)（顯著水平）使用alpha=5% alpha=0.05 #做出結(jié)論 if(p_two< alpha): print('拒絕零假設(shè)，有統(tǒng)計顯著')print('備選假設(shè)：A版本和B版本有差異') else: print('接受零假設(shè)，沒有統(tǒng)計顯著')print('零假設(shè)：A版本和B版本沒有差異')

由于t(45)=-4.05 , p=.00019>α=5%雙尾檢驗，拒絕原假設(shè)，認(rèn)為A版本和B版本存在顯著差異

置信區(qū)間
置信區(qū)間：[樣本平均值 -t_ci ×標(biāo)準(zhǔn)誤差，樣本平均值 +t_ci ×標(biāo)準(zhǔn)誤差]

t_ci=2.0141 #查t表格可以得到，95%的置信水平，自由度是n-1對應(yīng)的t值 a_n = 25 #樣本大小n b_n = 25 se=np.sqrt( np.square(a_std)/a_n + np.square(b_std)/b_n ) #標(biāo)準(zhǔn)誤差開方平方 sample_mean=a_mean - b_mean #雙獨(dú)立樣本檢驗置信區(qū)間的樣本平均值=A版本平均值 - B版本平均值 a=sample_mean - t_ci * se #置信區(qū)間上限 b=sample_mean + t_ci * se #置信區(qū)間下限 print('兩個平均值差值的置信區(qū)間，95置信水平 CI=[%f,%f]' % (a,b))

兩個平均值差異的置信區(qū)間，95置信水平 CI=[-2.762316,-2.677684]
置信區(qū)間是[-2.76,-2.68],平均下來，使用A鍵盤的錯誤數(shù)量要比B鍵盤的要少大約3到2個

效應(yīng)量

在假設(shè)檢驗中，我們給出了是否具有統(tǒng)計顯著性，也要給出效應(yīng)量，一起來判斷研究結(jié)果是否有意義
可采用差異指標(biāo)Cohen’s d=樣本1均值-樣本2均值/std
d值 0.2 0.5 0.8 對應(yīng)差異小中大
或者相關(guān)度指標(biāo)R平方等不同指標(biāo)判斷

#合并標(biāo)準(zhǔn)差鑒于雙獨(dú)立樣本 sp=np.sqrt(((a_n-1)*np.square(a_std) + (b_n-1)* np.square(a_std) ) / (a_n+b_n-2)) d=(a_mean - b_mean) / sp #效應(yīng)量Cohen's d print('d=',d)

d= -1.32042983789

數(shù)據(jù)分析報告

描述統(tǒng)計分析
A版本打錯字?jǐn)?shù)量平均是5.08個，標(biāo)準(zhǔn)差是2.06個
B版本打錯字?jǐn)?shù)量平均是7.8個，標(biāo)準(zhǔn)差是2.65個
推論統(tǒng)計分析
- 假設(shè)檢驗
  獨(dú)立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗，拒絕零假設(shè)，統(tǒng)計顯著
- 置信區(qū)間
  兩個平均值差值的置信區(qū)間， 95%置信水平 CI=[-2.76,-2.68]
- 效應(yīng)量
  d= - 1.32，效果顯著

總結(jié)

以上是生活随笔為你收集整理的【无标题】A\Btest的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：停车场信息管理系统（SqlServer数
下一篇：如何查看suse系统服务器sn,suse