统计学习:三大奇技(1)
統計學習
最近在處理信號的過程中發現自己的理論水平還是太低,因此需要提高自己的技術,因此開始惡補理論,寫下了這個系列的文章。
三大神技
雖然統計的理論成熟完備有效,但現實的情況總是和理論分析時的有所區別,因此,本文將要介紹三種現實中實用技術之一的bootstrapping。
拔靴法(bootstrapping)
拔靴法(Bootstrapping)是指對當前手上有限的樣本資料經過多次有放回的重復抽樣,擴大樣本集,重新建立起足以代表總體分布的大樣本(這個命名來源是來自于一個俗語,一個人提著自己的鞋帶上了天堂,比如不可實現)。
Bootstrapping 是通過具有統計具有相關特性的樣本數據來獲得該特性,它不斷地從真實數據中進行抽樣,以擴大之前得到的樣本。因為樣本數越大對于統計的效果就越好,同時對于估計結果的準確性更為有利,所以提出了該方法。與分析方法相比,bootstrapping 的優點在于,它無需對分布特性做嚴格的假定就能進行推斷分析,這是因為它使用的數據就是真實數據。
統計學中,bootstrapping可以指依賴于重置隨機抽樣的一種擴大樣本量的方法。bootstrapping可以用于計算樣本估計的準確性。對于一個采樣,我們只能計算出某個統計量(例如均值)的一個取值,無法知道均值統計量的分布情況。但是通過自助法(自舉法)我們可以通過模擬計算出均值統計量的近似分布。有了假定的真實分布,很多依賴于此的統計處理就可以做了(比如說有你推出的結果來進而推斷實際總體的分布)。
實現原理
bootstrapping方法的實現很簡單,假設已經獲得的的樣本大小為NN:
在原樣本進行有放回的抽樣,抽取MM次。每抽取一次算作一個一個新的采樣樣本,重復該操作,直到形成很多的新樣本集合,通過這些樣本集合就可以計算出樣本各個統計量的一個近似分布。
通常會把新樣本的數量擴增到1000-10000。如果計算成本很小,或者對精度要求比較高,可以再增加新樣本的數量。
優點:簡單易行,操作方便。
缺點:bootstrapping的運用基于原始樣本有很多假設,因此假設的成立與否會影響該方法使用的準確性。
對于分布y(θ)y(θ) ,要估計的參數為θθ。通過使用分析技術bootstrapping 估計的樣本,可以得到θ^θ^ 的近似統計量。
具體方法
具體方法是:從yy 中重復抽取NN 個大小為TT 的樣本,并用每個新樣本重復計算θ^θ^ ,即可得到一系列的θ^θ^ 估計值,同時可分析它們的分布情況。Bootstrapping 并不對θ^θ^抽樣分布的形狀提出要求,而是通過分析各次抽取后樣本內統計量的變化,對抽樣分布進行極大似然估計。從樣本內不斷生成新的抽樣數據,并替代原先的抽樣樣本,用以計算所研究的統計量。
總結
以上是生活随笔為你收集整理的统计学习:三大奇技(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python练习:tkinter(1)
- 下一篇: 零式机器人_最帅机器人作品“EVA”“天