统计学小抄:常用术语和基本概念小结
統計學是涉及數據的收集,組織,分析,解釋和呈現的學科。
統計的類型
描述性統計是以數字和圖表的形式來理解、分析和總結數據。對不同類型的數據(數值的和分類的)使用不同的圖形和圖表來分析數據,如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統計的一部分。重要的是要記住,描述性統計可以在樣本和總體數據上執行,但并不會使用總體數據。
從總體數據中提取一些數據樣本,然后從這些數據樣本中,推斷一些東西(結論)。數據樣本被用作對該總圖作出結論的基礎。這可以通過各種技術來實現,比如數據可視化和操作。
數據的類型
1、數字數字
數字數據就是指數字或數值型的數據。數值數據又分為離散和連續兩類數值變量。
I) 離散數值變量——離散變量的概念是指具有有限取值范圍的變量,例如教室中的排名、系中教授的數量等。
II) 連續數值變量——連續變量的值可以是無限的,可能是范圍內的任意數值,例如員工的工資。
2、分類數據-
分類數據類型是數據的字符類型表示,例如名稱和顏色。一般來說,這些也有兩種類型。
I) 序數變量—序數分類變量,其值可以在一系列值中排序,例如學生的年級(a、B、C),或高、中、低。
II) 名義變量——這些變量沒有排名,只是包含名稱或一些類別,如顏色名稱、主題等。
集中趨勢量數的度量
集中趨勢的度量給出了數據中心的概念,即數據的中心是什么。其中有幾個術語,如平均值、中位數和眾數。
一個特定數值變量的平均值是其中所有數值的平均值。當數據包含異常值時,不建議找出平均值并將其用于任何類型的操作,因為單個異常值會嚴重影響平均值。
中值是對所有數字排序后的中心值。如果總數是偶數,那么它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數據是異常值(這樣的話就不是異常值了)。
眾數是觀察結果中出現最多的數值。Numpy沒有提供查找眾數的函數,但是Scipy有。
在使用的時候,不要只使用他們三個的一個,可以試著全部使用這三種方法,這樣就可以理解數據的本質。
數據分布度的度量
分布度度量描述了特定變量(數據項)的觀察值集的相似性或變化程度。分布度的度量包括范圍,四分位數和四分位數范圍,方差和標準差。
1、范圍
通過比較數據的最大和最小值(最大值)來定義范圍。
2、四分位數
四分位數是按數字列表分為四分之一的值。找到四分位數的步驟是。
- 按順序排列數字
- 將列表切成4個相等的部分
- 4分的切分點就是4分位數的值
可以通過描繪25、50、75和100的百分位數來找到4個四分位數。其中Q2也被稱為中位數。
它通過描述與平均值的絕對偏差來描述數據的變化,也稱為平均絕對偏差(MAD)。
3、四分位數范圍(IQR)
四分位間范圍(IQR)是前75個和后部25個百分位數之間分散體的量度。它經常出現在異常值檢測和處理的情況下。
4、平均絕對偏差
它通過描述與平均值的絕對偏差來描述數據的變化,也稱為平均絕對偏差(MAD)。簡單地說,它告訴集合中每個點與平均絕對距離。
5、差方
方差衡量的是數據點離均值的距離。要計算方差,需要找出每個數據點與平均值的差值,然后平方,求和,然后取平均值。可以直接用numpy計算方差。
方差的問題在于:由于是平方,它與原始數據不在同一個計量單位內。因為它不是直觀的,所以大多數人更喜歡標準差。
6、標準差
方差的平方根是標準差,因為我們對原始單位平方,所以我們再次得到相同測量的標準差。使用Numpy,可以直接計算這個。
正態分布
正態分布是鐘形曲線形式的分布,機器學習中的大多數數據集遵循正態分布,如果不是正態分布,一般會嘗試將其轉換為正態分布,許多機器學習算法在此分布上會有很好的效果,因為在現實中, 世界情景也許多用例也遵循此分配。
如果任何數據遵循正態分布或高斯分布,那么它也遵循三個條件,稱為經驗公式
P[mean - std_dev <= mean + std_dev] = 68%P[mean - 2*std_dev <= mean + 2*std_dev] = 95%P[mean - 3*std_dev <= mean + 3*std_dev] = 99.7%在進行探索性數據分析的同時也可以將任何變量分布轉化為標準正態分布。
偏態
偏度是對分布對稱性的一種度量,可以用直方圖(KDE)來繪制,它在數據眾數方面有一個高峰。偏度一般分為左偏數據和右偏數據兩種。有些人也把它理解為三種類型,第三種是對稱分布,即正態分布。
一、數據右偏(正偏分布)
右偏態分布是指數據有一個向右的長尾(正軸)。右偏的一個經典例子是財富分配,很少人擁有很高的財富大多數人處于中等范圍。
二、數據左偏(負偏分布)
左偏態分布是指數據有一個長尾朝向左側(負軸)。一個例子可以是學生的成績,將會有更少的學生得到更少的成績,最大的學生將會在及格類別。
中心極限定理
中心極限定理:分析任意總體的樣本數據做一些統計測量后,標準差的均值和樣本均值會近似相等。這只是中心極限定理。
概率密度函數(PDF)
如果你知道直方圖,然后你把數據進行分箱,就可以對數據進行可視化的分析。但是如果我們想對數值數據進行多類分析,那么很難使用直方圖進行操作。這是就需要使用概率密度函數。概率密度函數是僅使用KDE(內核密度估計)在直方圖內繪制的線。
在上面的圖中,編寫3個區分分類3個類的條件該怎么做?使用直方圖和PDF可以輕松的看到區別。
從上方直方圖中可以看出,如果值小于2,則是setosa。如果大于2且小于4.5,那么它是versicolor。從5到7都是virginica。但是4.5之后的重疊區域會對判斷進行干擾,在這里PDF可以為我們提供更多的理論支持。
累積分布函數(CDF)
CDF可以告訴我們有多少百分比的數據小于某個特定的數字。找到CDF的過程是,將在指定點之前的所有的直方圖相加。另一種方法是使用微積分,使用曲線下面積,找到想要CDF的點,畫出直線,然后求出內部面積。可以對PDF進行積分得到CDF,對CDF求導得到PDF。
如何計算PDF和CDF
我們將計算setosa的PDF和CDF。我們將花瓣長度轉換為10個分箱,并提取每個箱的樣本數和邊緣值,這些邊緣表示容器的起點和終點。為了計算PDF,我們將每個頻率計數值除以總和,我們得到概率密度函數,找到PDF,就可以繼續計算得到CDF。
ounts, bin_edges = np.histogram(iris_setosa[‘PL’], bins=10) pdf = counts / sum(counts) cdf = np.cumsum(pdf) print(pdf) print(cdf)https://avoid.overfit.cn/post/77b3cb6cf95c4e46b3342f7af40b6451
作者:Anjali Dharmik
總結
以上是生活随笔為你收集整理的统计学小抄:常用术语和基本概念小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为元宇宙提供动力的关键技术驱动力
- 下一篇: web前端:视频背景(铺满整个网页)