可汗学院 统计学(12到34集)
學習之前,需強調:概率是已知模型和參數,推數據;而統計是已知數據,推模型和參數。
第十二集:樣本與總體
首先,為何需要樣本呢?因為人類并不能總是獲取總體數據,例如:人類的身高數據,全世界每秒都有人出生和死去,要獲取總體數據是不現實的,故需要樣本。樣本就是從總體中抽取的一部分數據,人類希望用樣本來估計總體,這樣做可以節省人力物力而且可行,對么?其次,在統計學中,樣本的均值通常用,總體的均值用。均值,中位數,眾數是用來衡量數據集中趨勢。
第十三集:總體方差
總體方差是用來描述總體數據離散程度的統計工具。即數據偏離總體中間水平的程度,用符號來表示,請注意這是總體方差。下面會講述樣本方差。
第十四集:樣本方差
總體方差是用來描述樣本數據離散程度的統計工具。即數據偏離樣本中間水平的程度,用符號來表示,具體計算如圖1,需注意均值為樣本均值。圖1算樣本方差存在一個問題:就是樣本集的選擇問題,由于事前不知道樣本的分布,選擇樣本集求均值時,容易出現偏差,如紫色的點,選取前四個會讓樣本均值偏大,從而導致樣本方差低于總體方差。為避免這種情況,提供無偏估計,我們定義無偏樣本方差。如圖2所示。
第十五集:標準差
標準差就是方差開平方,用表示。意義與方差一樣,優點是直觀。注意總體方差與樣本方差的區別和聯系。
第十六集:諸方差公式
為了更快的計算方差,給出方差化簡后的公式。黃線圈住的。
第十七集:隨機變量介紹
隨機變量與普通變量不同,因為隨機變量通常是一個函數,用于量化隨機過程。通常用大寫字母X,Y,Z等表示,而傳統變量通常用小寫字母x,y,z表示。隨機變量有兩類:離散型和連續型。例如:明天是否下雨,用隨機變量X來表示,它只有0,1兩種值即取值有限且不連續,X是離散型隨機變量;而對于明天下雨量,用Y表示,它可以取連續值0.1,0.2,0.5,0.511等,可以是無窮的數據,Y是連續型隨機變量。
第十八集:概率密度函數
建議看這篇博客:https://www.jianshu.com/p/b570b1ba92bb。需要指出的是概率密度函數是針對連續性隨機變量而言的。
第十八集-----二十二集 二項分布
這幾節主要講了二項分布的例子,便于理解。二項分布進階的博客:https://blog.csdn.net/Michael_R_Chang/article/details/39188321。需注意的是二項分布針對的是離散型隨機變量。
第二十三集:期望
隨機變量的期望值其實是總體的均值,但有時由于總體樣本無限多,用均值計算方法很難計算,故提出期望計算均值的方法.其思想是用頻率作為權重計算出所有結果的加權平均值。
第二十四集:二項分布的期望值
對于二項分布的期望計算如圖所示,本課有詳細推導,感興趣可以跟著推導一遍。
第二十五、六集:泊松過程
泊松分布是來自于二項分布。具體參見https://www.matongxue.com/madocs/858.html。在使用泊松分布前,我們應該知道它是用來求取某個時間段內發生事情x的概率有多大且其是離散分布。具體推導可以學習這章內容。
第二十七集 大數定律
大數定律描述了隨機現象最根本的一個性質:平均結果的穩定性。大數定律告訴我們:對于獨立同分布的隨機序列,只要總體均值(隨機變量期望)存在,則隨著樣本數的增加,樣本均值會收斂到總體均值。注意樣本數的足夠性,概率是頻率的一個極限值,這樣可以避免賭徒謬誤。http://blog.sciencenet.cn/blog-677221-1063741.html(賭徒謬誤)
第二十八–三十四集 正態分布
二項分布,泊松分布都是離散分布,而正態分布是連續分布。二項分布和泊松分布都可以轉化為正態分布。泊松分布是,而正太分布是為無窮大。圖1是正態分布的概率密度函數圖和表達式,圖二是計算時使用的一些經驗法則,具體說:與均值相差一個標準差概率是68%, 兩個標準差概率是95%,三個標準差概率是99.7%。當然具體計算也可以查閱正態分布表。
總結
以上是生活随笔為你收集整理的可汗学院 统计学(12到34集)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 思科CCNA第二学期期末考试答案
- 下一篇: 利用JQuery插件CleverTabs