可曾听闻【大话】二字
文章目錄
- 我為什么要寫這篇
- 總論
- 1.1統計學是什么
- 1.2 統計學的基本概念
- 基于關系和因果的統計學分類
- 第二話
- 數據的描述
- 用統計量描述:
- 代碼展示
我為什么要寫這篇
我們都知道,21世紀是數據科學的時代,而統計學則是數據科學的基礎,任正非在一檔訪談節目中也著重談到了統計學在大數據時代的重要性。大數據不能被直接拿來使用,統計學依然是數據分析的靈魂。
總論
全章概覽圖
1.1統計學是什么
“統計學”是兼具“數學計算”與“圖形顯示”的課程,所有的統計軟件(如SPSS),并非計算機輔助教學(CAI),因為它們并非“教你學會統計”,而是應該在“學會了統計”以后,再來用它。本書就是這樣一本讓你從零開始接觸統計學,并將其真正應用到工作中的一本書,穩步跟進大數據時代。
本書前后連貫,各章之間也是先后呼應。例如:從概率到抽樣,從描述到推斷,從檢驗到因果;每章也是連貫的,開關有引言、觀念圖,結尾有流程圖、思維導圖;書中有許多階層圖、分類圖、關聯圖、步驟圖、流程圖,以及因果表、比較表、決策法則表等。
本書專門的配套軟件(中文統計)是在Excel(2003~2016版本適用)環境下,安裝一個“加載項”,輸入統計資料,就可以得到統計結果?!爸形慕y計”可以公開下載,僅提供給合法取得本書之讀者使用。
本書適合所有想掌握統計學的讀者,也可以作為高校教材,
統計一次,包括:統計工作,統計數據和統計學。內容的重點是統計學
-
統計工作:統計的實踐,應用統計問題,統計設計,搜索,整理,分析。
-
統計數據:統計工作獲得的各種相關數據信息,沒有數據,就沒有統計。
-
統計學:統計理論,分析數據,選擇分析模型,了解計算結果,獲得信息價值。
應用最多的領域就是管理,所需要的就是 測量—>數據—>統計—>管理—>衡量—>績效
統計學的目的有四個:
- 了解現象:描述統計是了解數據的呈現與性質,如集中趨勢的代表值或變異程度的離差值;時間序列和指數是了解變化因素的幅度
- 推測總體:統計校驗和估計是推測總體
- 知道因果:兩總體校驗,方差分析,回歸分析是知道因果
- 預測未來:時間序列是預測未來
例題 統計與統計學的源流(了解現象,推測總體)
統計學的產生和發展是以研究實際數據的統計實踐活動為基礎的,而統計實踐活動注定與人類社會活動渾然一體,不可分割。人類的生存與發展大概離不開三個最基本的數:人口、土地和財富,統計也確實是從這三方面的調查開始的。
這方面的功能主要體現在科學評估(評價)和預測未來上,即作為評估與預測的工具。如今,通過運用現代統計手段測量評估社會績效、發展潛力、競爭優勢、生存質量、社會變革、生活條件、福利水平等已經司空見慣。亨利認為,統計學可以廣泛運用于政策研究和評價研究,即通過向社會公眾展現統計信息以避免混淆視聽,并且認為制定和展現統計數據有三個基本原則:可理解性、可解釋性和可比較性??衫斫庑员WC了不需要掌握專業的統計方法就能理解統計信息;可解釋性保證了統計信息可以用熟悉、具體的數據單位來解釋;可比較性保證了統計信息有標準的度量尺度,可以做出橫向和交叉比較。哈爾則高度認可統計的預測功能,認為統計是可以預測未來的無價之寶??梢?#xff0c;統計承擔著通過搜集和篩選信息來說明社會現狀、并對未來走勢進行預測的重任
1.2 統計學的基本概念
1、個體:個體是指統計分析根據研究目的所確定的最基本的研究對象單位,所以個體又稱為觀察單位
例:分析業務人員的報銷費用,則人為觀察單位
2、變量:根據研究目的確定研究對象,然后對研究對象的某項目的或研究指標進行觀察(或測量),這種觀察項目或研究指標稱為變量(variable);
-
連續變量(continuous variable):也叫區間變量。取值范圍是一個區間,可以在該區間中連續取值,并且一般有度量單位。例:身高、體重、金額
-
特點:有大小之分,各取值之間的間距明確
-
離散型變量(discrete variable):取值范圍是有限個值或者一個序列構成的。
-
-分類變量:表示分類情況的離散型變量又稱為分類變量
-
有序分類變量:例:服務滿意度(滿意、一般、不滿意)
-
-特點:有大小之分,但是各類別間的間距大小不明。比如“高”和“中”之間的差距與“中”和“低”之間的差距我們無法判斷相差多少
-
無序分類變量:例:血型(A、O)、民族(汗、滿)
– 特點:無大小之分,僅知道屬于不同類別
-
兩分類變量(單獨摘出):性別(男、女)
-
連續變量、有序變量、無需變量間的信息量越來越少,在丟棄一部分信息量的前提下,可以將變量向信息量減少的方向轉換。類別超過5類的時候可以把類別編碼做逆向轉換。
3、變異:同質個體的某指標(變量)值的差異稱為個體變異(individual variable)
- 統計學就是研究變異規律的學科,不存在變異的問題不屬于統計學的研究范疇?;蛘哒f正是因為存在變異,才有了統計學的用武之地。
- 對于無變異的常量問題,或者嚴格的數學函數問題,并非統計學的應用領域。
4、總體(population):根據研究目的確定的同質所有個體某指標觀察值(測量值)的集合。
- 有限總體(finite population):數量穩定
- 無限總體(infinite population):不知道數量,例:糖尿病人口 可能在隨時發生變化
5、樣本(sample):在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或測量,這些個體的測量值構成的集合被稱為樣本。
6、隨機抽樣(random sampling):在抽樣研究中隨機抽出一部分個體進行觀察或測量的過程稱為隨機抽樣。
- 本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選可能性是確切可知的(多數情況下為等概率)
- 注意:隨機 != 隨便
7、統計量(statistic):刻畫樣本特征的統計指標稱為統計量。(平均水平、離散程度)
8、總體參數(parameter):刻畫總體特征的指標稱為總體參數,例如總體中某個指標的個體變量值的平均數稱為總體平均數。
9、推估:從樣本的統計量回推總體參數。
10、抽樣誤差(simple error):許多總體指標是未知的,需要用相應的樣本統計量對其進行估計。由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差。
11、隨機事件:隨機現象某個可能的觀察結果稱為一個隨機事件。如:扔一次硬幣正面朝上,這個結果就是一次隨機事件。
12、頻率(frequency):觀察到的隨機事件某個結局的出現頻次/比例。
13、概率(probability):刻畫隨機事件發生可能性大小的指標,其取值介于0和1之間。不能被直接觀察到,但可以通過頻率估計,實驗次數越多,估計約精確。
14、小概率事件:在統計學中,如果隨機事件發生的概率小于或等于0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,并且一般認為小概率事件在一次隨機抽樣中不會發生,這就是小概率原理。小概率原理是統計推斷的基礎。
15、頻數(Frequency):又稱“次數”。指變量值中代表某種特征的數(標志值)出現的次數。按分組依次排列的頻數構成頻數數列,用來說明各組標志值對全體標志值所起作用的強度。各組頻數的總和等于總體的全部單位數。頻數的表示方法,既可以用表的形式,也可以用圖形的形式
基于關系和因果的統計學分類
第二話
數據的描述
①統計類:
table() 生成頻數分布表
prop.table() 將頻數分布表轉化為比例
addmargins() 給頻數分布表添加邊際和或邊際比例
barplot() 生成條形統計圖
pie() 生成餅圖
②分布類:
hist() 生成直方圖,觀察變量內的分布
stem() 生成莖葉圖,觀察變量內的分布
boxplot() 生成箱線圖,觀察變量內的分布或對象間的變量水平比較
plot() 生成散點圖,觀察變量間的分布關系
radarchart() 生成雷達圖,觀察樣本間的相似性。package(fmsb)
用統計量描述:
①水平的描述
mean() 均值,易受極端值影響
median() 中位數,不受極端值影響
quantile() 分位數
summay() 描述統計量,輸出數據的基本描述信息
②差異的描述
max()-min() 極差,易受極端值的影響,不能全面反映差異的情況
quantile(x,0.75)-quantile(x,0.25) 四分位差,又稱內距、四分間距,不受極端值影響
var() 方差,數據離散程度的度量,比極差、四分位差更全面具體,但受數據取值大小的影響,無量綱
sd() 標準差,方差開方,有量綱,性質同方差
③分布形態的描述
skewness() 偏斜系數,其絕對值越接近0偏斜程度越低數據分布越對稱,小于0.5位輕微偏斜,在0.5到1之間為中等偏斜,大于1為嚴重偏斜。值>0時右偏,均值大于中位數;值<0則左偏,均值小于中位數。package(agricolae)
kurtosis() 峰度系數,數據分布峰值的高低。其值>0時為尖峰分布,數據相對聚集;<0時為扁平分布,數據相對分散。標準正態分布峰度系數為0。package(agricolae)
分布
①函數開頭的字母
d = 密度函數(density)
p = 分布函數(distribution function)
q = 分位數函數(quantile function),給定累計概率、均值、方差求所在的分位數
r = 生成隨機數(隨機偏差)
②一些常用分布函數(開頭要加上d、p、q、r)
binom() 二項分布
geom() 幾何分布
pois() 泊松分布
norm() 正態分布
unif() 均勻分布
③數據的正態性評估
先qqnorm(y = 數據),后qqline( y = 數據 ) 生成Q-Q圖,直線表示理論正態分布線,各觀測點越接近直線且呈隨機分布,表明數據越接近正態分布
①函數開頭的字母:
同概率分布的d、p、q、r一樣
②三個統計分布(變量均基于正態分布。開頭要加上d、p、q、r)
t() t分布,隨自由度越大越尖越接近標準正態分布,當正態總體標準差未知時,小樣本條件下對總體均值的估計和檢驗要用到t分布
chisq() 卡方分布,通常為不對稱的右偏分布,自由度越大則越趨于平坦對稱。概率為曲線下的面積。在總體方差的估計和非參數檢驗中常用到卡方分布
f() F分布,兩個相互獨立的隨機變量的卡方分布除以各自的自由度之比,圖像類似卡方分布,形狀取決于兩個相互獨立的隨機變量的卡方分布的自由度,其概率為曲線下的面積,通常用于比較不同的總體的方差是否有顯著差異
# R 語言繪圖if(!require(profvis)){install.packages("profvis")} ; library(profvis) if(!require(aplpack)){install.packages("aplpack")} ; library(aplpack) if(!require(ggplot2)){install.packages("ggplot2")} ; library(ggplot2) if(!require(graphics)){install.packages("graphics")} ; library(graphics) if(!require(lattice)){install.packages("lattice")} ; library(lattice) if(!require(RColorBrewer)){install.packages("RColorBrewer")} ; library(RColorBrewer) if(!require(qcc)){install.packages("qcc")} ; library(qcc) x = read.csv("C:/大話統計學 網絡資源/StatData/Chap2_1.csv",header=F)代碼展示
x1 <- x[,1] # x1 是數據框 x 的第1列數據 (x1是向量數值格式) breaks <- seq(from=min(x1), to=max(x1), length=8) # 分成 8-1 = 7 組 freq <- cut(x1, breaks=breaks, right=TRUE, include.lowest=TRUE) table(freq) ; hist(x1, breaks=breaks, col='pink') # 頻數分布表 與 直方圖 pause(10) # 等候 10 秒鐘 hist(x1, freq=FALSE, col='light green') ; lines(density(x1), lwd=3, col='blue') pause(10) # 等候 10 秒鐘 brk <- c(20,35,40,50,65,70,80,90,100) hist(x1,breaks=brk, col='yellow') # 不同組寬 直方圖 pause(10) # 等候 10 秒鐘 n <- length(x1) ; plot(sort(x1),(1:n)/n,type="s",ylim=c(0,1) , col='purple') # 累積頻率圖 pause(10) # 等候 10 秒鐘 boxplot(x1, col="yellow", main=paste("例題2.1 箱線圖")) # 箱線圖 pause(10) # 等候 10 秒鐘 plot(ecdf(x1), main=paste("例題2.1 累積概率函數"), col.hor='#3971FF', col.points='#3971FF') pause(10) # 等候 10 秒鐘bound <- hist(x1, right=TRUE, plot=FALSE )$breaks plot(bound, ecdf(x1)(bound), type="l", main = "例題2.1 累積頻率圖", ylab= "頻率", xlab= "分數", col="red", lwd=3) #累積頻率圖 pause(10) # 等候 10 秒鐘stem.leaf(x1, style="bare") # 莖葉圖class <- hist(x1, right=TRUE, freq=FALSE, col="green")pause(10) # 等候 10 秒鐘 class <- hist(x1, right=F, freq=F, col="yellow", main="例題2.1 直方圖", xlab="人數") pause(10) # 等候 10 秒鐘 class <- hist(x1, right=TRUE, freq=F,col="yellow", main="例題2.1 多邊形圖", xlab="人數") middles <- class$mid ; mlon <- length(middles) ; densities <- class$density pause(10) # 等候 10 秒鐘segments(middles[1:mlon-1],densities[1:mlon-1], middles[2:mlon],densities[2:mlon], col=rgb(0.4196078, 0.4196078, 0.1372549,0.9), lwd=3, main=paste("例題2.1 多邊形圖")) pause(10) # 等候 10 秒鐘 x2 = read.csv("C:/大話統計學 網絡資源/StatData/Chap2_4_1.csv",header=TRUE) # 讀入 Chap2_4_1.csv table(x2) ; col2 = c("red", "yellow", "blue")barplot(table(x2), bes=TRUE, col=col2, legend.text = T, args.legend = list(x = "top", inset = c(- 0.15, 0)), main=paste("例題2.4 條形圖")) # 両個定類變量條形圖col1 = c("red", "yellow", "blue", "sandybrown", "olivedrab", "purple", "green", "orange")pause(10) # 等候 10 秒鐘 x = read.csv("C:/大話統計學 網絡資源/StatData/Chap2_6.csv",header=TRUE)總結
以上是生活随笔為你收集整理的可曾听闻【大话】二字的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Dubbo集群容错
- 下一篇: java编写某计算器控制台程序_用jav