宋浩 概率统计 笔记_推论统计分析学习笔记
1.概率分布
隨機變量
隨機變量是一個量化隨機事件的函數。
離散隨機變量,可以一個一個列出來(如明天是否下雨?)
連續隨機變量,無法完全列舉出來(如明天的雨量的毫米數)
概率分布
隨機變量與概率分布的關系
離散隨機變量,計算公式:概率質量函數(PMF),統計圖形狀:離散概率分布
連續隨機變量,計算公式:概率密度函數(PDF),統計圖形狀:連續概率分布
離散概率分布
離散概率分布,又稱為 概率質量函數(PMF),包括以下幾種分布:
學習思路:
- 有什么用?
- 如何檢驗?
- 如何計算概率?
- 如何用Python實現?
.1 伯努利分布 Bernoulli Distribution
1次伯努利試驗只有兩種結果,只有成功或者失敗兩種情況
比如,拋硬幣的伯努利試驗
.2 二項分布 Binomial Distribution
二項分布的特征:
- 做某件事的次數是固定的,次數用n表示,n次某件事是相互獨立的
- 每次時間都有兩個可能的結果(成功或者失敗)
- 每次成功的概率都相等,成功的概率用p表示
- 目的是:想知道成功k次的概率是多少
例子:如連續5次拋硬幣,想知道連續3次拋到正面的概率
如:拋硬幣5次,硬幣正面朝上次數X的概率
.3 幾何分布 Geometric Distribution
幾何分布的特征:
- 做某件事的次數是固定的,次數用n表示,n次某件事是相互獨立的
- 每一次事件都有兩個可能的結果(成功,或者失敗)
- 每次成功的概率都相等,成功概率用p表示
- 目的:第k次做某件事情,才取得第1次成功的概率是多少
注:幾何分布與二項分布唯一的不同是第四項
案例:第X次表白成功(表白成功的概率為)
.4 泊松分布 Poisson Distribution
泊松分布的特征:
- 事件是獨立事件
- 在任意相同的時間范圍內,事件發的概率相同
- 目的是:想知道某個時間范圍內,發生某件事情k次的概率是多少
例如:一周內有多少個人內贏得彩票
連續概率分布
.1 正態分布
“邊際成本”越高的行業,越是分散市場,符合正態分布;
正態分布的特異功能:預測數據的位置
.2 冪律分布
個人冪律分布的商業模式:形成自己的影響力,將自己的時間賣出多次
長尾理論就是冪律分布的一種表達
2. 統計概率思維
總體與樣本
中心極限定理
中心極限定理使用樣本對總體進行估計
特征:
- 樣本平均值約等于總體平均值(樣本>30)
- 不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體平均值周圍,并且呈現正態分布。
有什么用?
- 在沒有辦法獲得總體的數據時,可用樣本來估計總體(民意調查)
- 根據總體信息,判斷某個樣本是否屬于總體(3個標準差范圍內,概率為97%)
如何用樣本估計總體標準差?
由于抽樣可能會使極端數據排除在外,無法反應所有數據的全貌,得到的樣本標準差會偏小。因此用樣本來估計總體標準差時,公式的分母是n-1,使得樣本標準差偏大一點
標準誤差是用來衡量樣本平均值的波動大小,他是由多個樣本的平均值求標準差而來。
如何避免偏見?
偏見產生的原因:
- 樣本偏差:只看了個別數據
- 幸存者偏差:只關注了顯而易見的樣本,忽略了沉默的樣本
- 概率偏見
- 信息繭房
總結
以上是生活随笔為你收集整理的宋浩 概率统计 笔记_推论统计分析学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: laravel 任务队列_Laravel
- 下一篇: linux部署python web项目