双样本T检验——机器学习特征工程相关性分析实战
生活随笔
收集整理的這篇文章主要介紹了
双样本T检验——机器学习特征工程相关性分析实战
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
最近在做數(shù)據(jù)分析方面的工作,經(jīng)常需要檢驗(yàn)兩組樣本之間是否存在差異,所以會(huì)遇到統(tǒng)計(jì)學(xué)中假設(shè)檢驗(yàn)相關(guān)的知識(shí)。在機(jī)器學(xué)習(xí)特征工程這一步,筆者最常用到的是假設(shè)檢驗(yàn)中的卡方檢驗(yàn)去做特征選擇,因?yàn)榭ǚ綑z驗(yàn)可以做兩個(gè)及兩個(gè)以上樣本率( 構(gòu)成比)以及兩個(gè)分類變量的關(guān)聯(lián)性分析。但是筆者今天想介紹一下通過(guò)T檢驗(yàn)做機(jī)器學(xué)習(xí)中的特征工程,希望能夠讓大家初步了解到各種假設(shè)檢驗(yàn)是如何在機(jī)器學(xué)習(xí)項(xiàng)目的特征工程發(fā)揮作用。
假設(shè)檢驗(yàn)簡(jiǎn)介
統(tǒng)計(jì)學(xué)中,常見的假設(shè)檢驗(yàn)有:T檢驗(yàn)(Student's t Test),F(xiàn)檢驗(yàn)(方差齊性檢驗(yàn)),卡方驗(yàn)證等。無(wú)論任何假設(shè)檢驗(yàn),它們都遵循如下圖所示的流程:
- 做兩個(gè)假設(shè):一般如果假設(shè)對(duì)象是兩組樣本的話,都會(huì)假設(shè)這兩組樣本均值相等(T檢驗(yàn)的假設(shè)),方差滿足齊次性(F檢驗(yàn)的假設(shè))等。而另一個(gè)假設(shè)其實(shí)就是兩組樣本均值不相等(T檢驗(yàn)的假設(shè)),方差不滿足齊次性(F檢驗(yàn)的假設(shè))等,其實(shí)這兩個(gè)假設(shè)就是一對(duì)非此即彼的選項(xiàng)。這兩個(gè)假設(shè)在教科書上就叫做原假設(shè) ,和備擇假設(shè) 。
- 設(shè)置一個(gè)顯著性值:通俗點(diǎn)理解,就是如果真實(shí)的情況偏離原假設(shè)的程度。
1.如果真實(shí)情況和原假設(shè)差異不大(P值高于顯著性值),那證明原假設(shè)是對(duì)的,接受原假設(shè)。
2.如果真實(shí)情況和原假設(shè)差異太大(P值低于顯著性值),那證明原假設(shè)錯(cuò)了,我們得拒絕原假設(shè),接受備擇假設(shè)。
顯著性值的選擇是個(gè)經(jīng)驗(yàn)值
總結(jié)
以上是生活随笔為你收集整理的双样本T检验——机器学习特征工程相关性分析实战的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Tableau必知必会之如何用颜色 突显
- 下一篇: Leetcode每日必刷题库第6题,如何