终于有人把幸存者偏差讲明白了
導讀:本文帶你了解數(shù)據(jù)收集的偏差。
作者:徐晟
來源:大數(shù)據(jù)DT(ID:hzdashuju)
數(shù)據(jù)收集是一項重要的工作,需要投入大量精力和時間,這是因為數(shù)據(jù)質(zhì)量直接關(guān)乎分析結(jié)論的成敗。然而,錯誤的數(shù)據(jù)收集方法可能造成結(jié)果偏差。
比如統(tǒng)計對象出現(xiàn)錯誤,明明應該統(tǒng)計數(shù)據(jù)集合A,卻統(tǒng)計了數(shù)據(jù)集合B。又比如統(tǒng)計對象不全面,只抽樣了部分數(shù)據(jù),卻沒有統(tǒng)計全體,或者忽略了數(shù)據(jù)分布存在偏斜等。
這些錯誤的數(shù)據(jù)收集方法會產(chǎn)生兩種常見的數(shù)據(jù)偏差——幸存者偏差和選擇性偏差。
01?幸存者偏差
幸存者偏差指用于統(tǒng)計的數(shù)據(jù)僅來自幸存者,導致結(jié)論與實際情況存在偏差的情況。
幸存者偏差源自一個真實故事:二戰(zhàn)時期,美軍統(tǒng)計了作戰(zhàn)飛機的受損情況,他們發(fā)現(xiàn),返航飛機各個損傷部位被擊中的彈孔數(shù)不同。這些飛機發(fā)動機部位的彈孔數(shù)最少,機翼的彈孔數(shù)量最多。于是有人提出,要趕緊加固飛機機翼,因為這些部位更容易受到敵方炮火的攻擊。
可是,美國哥倫比亞大學的沃德教授立即否決了這個方案。沃德教授是一位統(tǒng)計學專家,他應軍方要求提供相關(guān)專業(yè)建議。沃德指出,應該強化的不是機翼,而是發(fā)動機。從理論上講,飛機各部位的中彈概率應該是相同的。發(fā)動機部位的彈孔明顯偏少,只能說明:那些被擊中引擎的飛機大多沒有返航。
這就是幸存者偏差,軍方只看到幸存下來的飛機,卻沒有意識到它們只是一部分數(shù)據(jù),不能反映飛機受損的真實情況。
選擇正確的數(shù)據(jù)樣本非常重要。我們必須保證數(shù)據(jù)考察是全面的,而非其中的一部分。在很多場合,人們下意識地會做出具有幸存者偏差的選擇。
比如一個粗心的研究者在統(tǒng)計醫(yī)學數(shù)據(jù)時,為圖方便選擇了住院病人為研究對象,卻沒有意識到這種做法可能為研究結(jié)果帶來偏差——只有病人才去醫(yī)院。
一些成功學的書中提到,比爾·蓋茨、扎克伯格、喬布斯、埃里森等成功人士都在大學退學創(chuàng)業(yè),似乎從大學退學更有可能獲得成功。但這只是幸存者的案例,我們從未聽到失敗者故事,更不能說明大學退學創(chuàng)業(yè)就是成功的必需特質(zhì)。
如果一項研究是通過已有的樣本去研究過去某個規(guī)律,那就要當心了,因為它很有可能存在幸存者偏差。當我們選擇已有的樣本時,就只看到了幸存者,而忽略了沒被統(tǒng)計到的樣本。
比如,查看公司財務報表時,就已經(jīng)過濾掉了那些經(jīng)營不善而破產(chǎn)的公司;查看老年人在醫(yī)院的診療記錄時,就默認地排除了沒有活到老年的人群;統(tǒng)計某款手機軟件的受歡迎程度,不自覺地排除了那些買不起手機或者從未安裝過該手機軟件的人。這樣的例子比比皆是。
之所以會產(chǎn)生幸存者偏差,是因為很多人從一開始就搞錯了統(tǒng)計樣本,只看到經(jīng)過篩選的數(shù)據(jù),但沒有意識到篩選的過程。如果只是人為地選擇部分觀察數(shù)據(jù),那就無法保證結(jié)論的客觀性。
要獲得“全樣本”數(shù)據(jù)絕非易事。由于認知局限,很多人只看見了那些能看見的現(xiàn)象——比如受損的飛機、就醫(yī)的病人、成功的企業(yè)家、公司的報表,但忽略了沒有看見的真相—未返航的飛機、健康的人、失敗的創(chuàng)業(yè)者、破產(chǎn)的公司,而這些被忽略的數(shù)據(jù)同樣重要,甚至更加重要。
02?選擇性偏差
19世紀初期,人們認為統(tǒng)計就是要追求考察對象的大而全,數(shù)據(jù)越多,結(jié)果就越準。不過,想要考察大而全的總體,有時不具備操作性。于是一些統(tǒng)計學家提出了抽樣的想法,認為只要方法得當,就算不考察總體,也能通過研究一部分有代表性的隨機個體來推斷出總體的特征。
這些從總體中選出來的個體的集合,叫作樣本,隨機選擇的動作叫作抽樣。統(tǒng)計學界圍繞“抽樣”這件事爭論了好幾十年。直到20世紀30年代,抽樣的科學性才被學術(shù)界逐漸認可。
抽樣是一種非常好的了解大量樣本空間分布情況的方法,適用于大樣本。抽樣的對象要盡可能分散和有代表性,這樣才能體現(xiàn)出整個樣本的分布特點。
不過,抽樣畢竟對研究對象做了精簡,因此它很可能存在樣本選擇上的偏差,即選擇性偏差。比如想要調(diào)研中年男性的健康程度,抽樣時只選了亞洲人,這個抽樣對象顯然不夠全面。又或者,調(diào)研時只收集了若干人的數(shù)據(jù),研究樣本過少,因此得到的結(jié)論也不具備普適性。
選擇性偏差是在抽樣時出現(xiàn)的一大問題。有時,人們?yōu)榱俗C明自己的觀點,傾向于選擇特定的數(shù)據(jù)來支撐結(jié)論,從而忽略了其他證據(jù)。采用有偏差的抽樣數(shù)據(jù),幾乎可以得到人們想要的任何結(jié)論。
假如在調(diào)研問卷中問這樣一個情感問題:“假如愛情可以重來,你是否還會選擇和他/她在一起?”結(jié)果會如何呢?我想多數(shù)會收到“不會”的答案。這并不是真相,只是那些回復的人群可能是“有偏的”。
因為調(diào)查問卷是自愿回復,所以對這個話題抱有強烈負面感受的人,更有可能不厭其煩地做出回應,那些生活幸福的人也許隨手就將問卷丟進了垃圾桶。
又比如,去高檔的購物場所進行調(diào)研,會出現(xiàn)選擇性偏差,因為去那里消費的人相對富有;而如果去山村調(diào)研,則很可能得出完全相反的結(jié)論。
在以上的例子中,前者由被調(diào)查的人自行決定要不要回應,后者則由調(diào)查人員決定如何選取樣本,這兩種調(diào)查方法都會人為地影響統(tǒng)計結(jié)果。
抽樣的結(jié)論若要很好地代表整體,需要具備兩個條件:
一是樣本足夠大,根據(jù)大數(shù)定律,這樣的樣本分布更接近總體;
二是抽樣方法要正確,確保抽樣是完全隨機的,它既不受調(diào)查者的選擇影響,也不受被調(diào)查者的偏好影響。
采用隨機抽樣的方法,可以一定程度上消除對樣本選擇的偏差。
以民意調(diào)查為例,我們知道,美國的總統(tǒng)選舉永遠是個熱門話題,網(wǎng)絡和媒體會密切關(guān)注,并跟蹤報道一手資料。其中一個熱門話題就是關(guān)于選舉結(jié)果的預測。由于選票會涉及不同階級、不同種族、不同利益的人和團體,所以要調(diào)研民眾意向,抽樣時就應該考慮兼顧各種利益團體的樣本,否則很有可能出現(xiàn)帶有偏差或者歧視的結(jié)論。
為了調(diào)查民眾的看法、意見和心態(tài),喬治·蓋洛普設(shè)計了一種蓋洛普民意測驗。他根據(jù)年齡、性別、教育程度、職業(yè)、經(jīng)濟收入、宗教信仰這6個標準,在美國各州進行抽樣問卷調(diào)查或電話訪談,然后對統(tǒng)計結(jié)果做出分析。此方法產(chǎn)生于20世紀30年代,今天仍會被使用,并且有著相當高的權(quán)威性。
總之,抽樣要針對大樣本,保證樣本的隨機性。如果抽樣的樣本很少,或由于其他原因?qū)е铝私y(tǒng)計不充分,那么結(jié)論很可能是錯誤的。
小結(jié)
數(shù)據(jù)樣本偏差帶來了“以偏概全”的風險,它會得出“差之毫厘,謬以千里”的錯誤結(jié)論。過去,人們擔心小樣本導致統(tǒng)計誤差;而在大數(shù)據(jù)時代,這個問題并不會消失,反而變得更加復雜,也更難察覺。
幸存者偏差提醒我們,要考察所有類型的數(shù)據(jù)。選擇性偏差提醒我們,要客觀地挑選數(shù)據(jù)。前者是因為沒有準確選擇研究對象而導致的偏差,后者是由于沒有“公平”地挑選數(shù)據(jù)導致的偏差,兩者都未看清數(shù)據(jù)的全貌。
為了避免幸存者偏差,我們需要擁有全面的數(shù)據(jù)集合,而不是有意或無意地排除總體中的某個子集。為了避免選擇性偏差,我們應該客觀地考察所有數(shù)據(jù),而不是僅僅考慮少量的數(shù)據(jù),或者支持既定假設(shè)的數(shù)據(jù)。
關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學,從事IT技術(shù)領(lǐng)域工作十余年,對科技發(fā)展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。
本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)
《大話機器智能:一書看透AI的底層運行邏輯》
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:AI是什么?機器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現(xiàn)AI的底層運行邏輯,即AI是如何工作的。
劃重點👇
干貨直達👇
機器學習的挑戰(zhàn):黑盒模型正面臨這3個問題
詳解數(shù)據(jù)分析體系構(gòu)成框架
機器人的「三體問題」
4637字,看懂從DevOps到DevSecOps的進化之路
更多精彩👇
在公眾號對話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手
大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?數(shù)學?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計,99%的大咖都關(guān)注了這個公眾號
👇
總結(jié)
以上是生活随笔為你收集整理的终于有人把幸存者偏差讲明白了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 父亲节,来认识一下这几位“爸爸”
- 下一篇: 干货收藏!一文看懂8个常用Python库