Data - 深入浅出学统计 - 上篇
本文是已讀書籍的內容摘要,少部分有輕微改動,但不影響原文表達。
:以漫畫形式來講解最基本的統計概念和方法。
- ISBN: 9787121299636
- https://book.douban.com/subject/26906845/
引言:統計無處不在
統計值無處不在。我們伴隨著統計值出生,離開后也會化為統計值。
統計幫助我們把握重要事件的大量數據。進而幫助我們更好地理解這個千變萬化的世界,并操縱世界。
統計的真正力量更為特別,統計幫助我們在信息有限的情況下,做出充滿信心的決策。
我們總是希望能夠得到所有數據,接著算出結果,但顯然這很難做到。
實際上,我們只能得到的有限的信息,但好在通過統計工具,能使用這些有限的信息,對所有的情況做出充滿信心的描述。
統計學是展示數據的工具,而不是解釋數據的工具。
也就是說,“統計”只是將隱藏在混雜的、撲朔迷離的數據中規律性信息,以一種方便解釋、易于理解的方式表達出來,用來幫助人們做出判斷,而不是代替人們下判斷。
以下內容主要講的就是統計學的基本問題:如何通過樣本來充滿信心的描述整體。
- 如何采集和調查樣本。
- 如何通過樣本探索總體的各種特質(統計推論過程:篩選數據、計算置信區間、進行假設檢驗)
特別注意:可以通過統計進行充滿信心的猜測,但永遠無法通過統計得出確定無疑的結果。
1 - 收集統計數據
1.1 - 數字
統計并不只關系到數字,而且也關系到我們的信心。
統計的確需要處理大量數字,而且處理起來并不是總是那么簡單。
數字很容易被用于撒謊。這通常會讓人們對數字過度懷疑,從而忽略了數字的真正威力。
這要求我們在處理任何數字時,都必須帶著適當的懷疑。
不管拿到什么數字,都應該問這樣幾個問題:
- 你從哪里來?
- 誰導致你出現?
- 為什么?
1.2 - 隨機原始數據
很多時候,我們都不可能清楚所有要了解的東西,只能通過研究樣本,進而了解總體。
必須知曉的事實:
- 不可能通過樣本完全確定一個總體。統計指的是做出最佳猜測,而絕非確鑿無疑的判斷。
- 采集樣本犯下的任何錯誤,都可能會徹底扭曲對較大總體的結論。
通過各種方法采集樣本觀測值,這個過程并不簡單。
最大的挑戰可能在于要準確地指出樣本中包含哪些內容。目的是避免樣本出現偏差,因為偏差可能會導致我們曲解總體。
理想情況是,采集的樣本能正確反映總體。
通過隨機采集樣本來避免偏差。
實踐中。我們常常需要設想所有可能令樣本發生偏差的問題,并確保這種問題不會出現。
隨機樣本效果顯著的原因是,它表明我們抽取的任何一個樣本的可能性都和抽取任何其他樣本的可能性是一樣大的。
確保樣本必須正確是重中之重,因為隨機抽樣是一切統計調查的關鍵。
1.3 - 排序
問題的特性十分重要,因為我們的提問類型決定我們最終得到的是類別型數據,還是數值型數據。
這兩種數據各自為政,根本差別:是否能夠對其進行數學運算。
在下列情況下采集類別數據:
- 在研究只用文字就能描述的特性時
- 在能夠用“是”或“否”回答問題時
在下列情況下采集數值型數據:
- 在研究可以用數字進行比較的特性時
盡管可以通過類別數據來了解樣本的構成比例,但總得來說,數值型數據更為有用。
在采集到大量數值型數據后,首先要做的就是利用這些數據“畫圖”,也就是觀察現有的數據。
簡單的圖形能讓我們集中關注數據表達的確切意義。
- 直方圖:最基本的數值型數據圖形,可以對整個數據集進行整體描述,包含精確的細節。
- 箱線圖:希望了解數據的概要情況,或者希望對不同樣本和群組進行比較時,可以迅速了解數據的匯聚情況。
1.4 - 偵探工作
分析數據就像解謎一樣,最終目的是從一個隨機樣本中收集證據。然后用這些證據形成對總體的描述。
首先需要學習如何做一些基本的偵探工作。
當開始動手調查任何一批數據時,總是觀察四個主要特性:大小。形狀,位置。分散性。
大小
一般說來,樣本越大,結果越好。
樣本大小會直接關系到,對一個總體可以具有的置信水平。
但在實際工作中,樣本大小總會受到某種限制。
形狀
每一個樣本的形狀都是獨一無二的。
無論數據匯聚成什么形狀,總是有其原因的。
- 當所有可能結果都比較相似時,可以稱這堆數據是平的。
- 當一批數據因為某種原因圍繞一個特定數據聚集在一起。那么可以說這批數據是正態。
- 當一批數據由于某種原因,在一個方向上的尾部比另一個方向的尾部延伸的更長。那么可以說這些數據是偏斜的。
位置
位置是對一批數據在一個數軸上落點的量度,簡而言之就是數據聚集的地方。
通??捎靡粋€數字來描述位置:平均數。
盡管平均數在量度位置時很有用,很精確。卻并非完美。
平均數具有欺騙性。一批數據出現偏斜,平均數就會極具誤導性,此時中位數更能體現數據情況,能更好地描述典型值。
分散性
是對一批數據寬度的度量,也是對變性的度量。
分布越寬,變異越大。
測量分散性,一個簡單明了的辦法是,算出全距:最大值與最小值的差值,然后分成四塊,每塊包含相同數目的數據點,中間的兩塊被稱為四分位距(IQR)。
利用全劇可以了解整個樣本的每一部分的變異性,尤其對于偏斜數據的調查研究特別有用。
分散性最常見度量方法是標準差(SD)。
范圍較寬的數據具有較大的標準差。標準差越大,意味著變異越大。
1.5 - 怪異的錯誤
特別注意:通過統計永遠不能徹底證明任何結論。
發掘兩種變量之間的關系時,往往一個潛在變量會影響結論,甚至將結論搞得面目全非。
潛在變量會給各種統計分析帶來麻煩。因此統計師的部分工作就是發現潛在變量。
如果不找出這種潛在變量,就會有“以假亂真”的風險。
1.6 - 樣本到總體
最終目標是根據樣本。對總體做出充滿信心的描述。
將樣本數據堆積起來之后,形成的堆積圖形成為樣本直方圖,具有形狀、背景、分散性等一些重要特性。
把總體堆積起來,所形成的圖形稱為總體分布,同樣也具有形狀,位置,分散性的特征。
樣本的特性叫做“統計值”,是實際算出來的結果。
總體的特性叫做“參數”,是真正想知道的信息。
雖然無法直接觀察參數,卻可以利用統計值去發掘參數,盡管無法利用統計值得出確定的參數。
轉載于:https://www.cnblogs.com/anliven/p/11148937.html
總結
以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 上篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 精子库的捐精补偿标准
- 下一篇: 如何看宫颈涂片报告单?