《人人都在说谎:赤裸裸的数据真相》读书笔记1
圖書背景
本書系《Everybody Lies: Big Data, New Data, and What》譯著 ,主要通過案例科普大數(shù)據(jù)的一些概念。
本書論述稍顯散亂,案例因為文化背景的原因,讀起來可能有點乏味,但總體來講可以打及格分。
緒論
谷歌趨勢,它可以告訴使用者任何一個詞語或短語在不同時間、不同地點的使用頻率。
人們搜尋信息這一行為本身就是信息。事實證明,他們何時何地搜尋真相、格言、笑話、地點、人物、事件或幫助,可以在很大程度上反映他們真實的想法、欲望、恐懼和職業(yè),其程度之高是任何人都想象不到的。
谷歌數(shù)據(jù)的功能不在于說明那些數(shù)據(jù)中顯而易見的結(jié)果,而在于人們會向這個巨大的搜索引擎傾吐他們不會告訴任何人的事情。
"性相關(guān)的調(diào)查結(jié)果"案例表明人們會在調(diào)查時隱藏真實想法。因此,人人都在說謊,唯一的不同就是說謊程度的大小。
“美國大選”案例表明不能只研究哪位候選人的搜索頻率最高。很多人搜索某位候選人是因為喜愛他,但是有幾乎同等數(shù)量的人搜索某位候選人是因為討厭他。作者的研究表明,在一條包含兩位候選人姓氏的搜索中,選民更有可能將其支持的候選人姓氏放在前面。
人們常常說謊,對自己說謊,也對別人說謊。
首先,我得承認我無法準確定義究竟什么是大數(shù)據(jù)。為什么?因為這本來就是一個模糊的概念。多大才算大?如果18 462個觀測值是小數(shù)據(jù),那么18 463個就算大數(shù)據(jù)嗎?
我們正在經(jīng)歷各種可用信息數(shù)量和質(zhì)量的雙重激增。
很多人都曾對大數(shù)據(jù)的影響做過很高的評價,但是他們?nèi)狈ψC據(jù)。
這導致為數(shù)眾多的大數(shù)據(jù)懷疑者對更大數(shù)據(jù)集的搜索不予理睬。作家兼統(tǒng)計學家納西姆·塔勒布(Nassim Taleb)曾寫道:“我不是說大數(shù)據(jù)中沒有信息,事實上它包含很多信息,但問題是,提取信息比大海撈針還難,而這也是主要問題?!?/p>
本書的主要目標之一,便是要就大數(shù)據(jù)能做什么這一問題提供一些缺失的證據(jù)。我希望可以提供足夠多的大數(shù)據(jù)案例,為人類心理及行為提供新的見解。
證明那些你本就懷疑卻缺乏證據(jù)的事情不可謂沒價值,**但懷疑某事是一回事,證明它又是另一回事。**如果所有大數(shù)據(jù)能做的只是證實你的懷疑,那么這些數(shù)據(jù)也就不會那么具有革命性了。
正如卓別林所言:“笑聲是滋補品,是緩解和去除痛苦的靈藥。”實際上,人們在生活平順(而非不順)時搜索笑話的可能性更大。
有時新數(shù)據(jù)會體現(xiàn)我從前不曾考慮過的文化差異。
今天仍有很多數(shù)據(jù)科學家正在積累大量的數(shù)據(jù)集,卻很少闡明其重要性。太多的企業(yè)被淹沒在數(shù)據(jù)中,它們有TB級的數(shù)據(jù),卻很少有主見。我認為數(shù)據(jù)集的大小總會被高估。
對此,還有一個很微妙卻很重要的解釋,即**一種事物的影響越大,有必要觀察它的次數(shù)就越少。**你只需要觸碰一次高溫火爐就會意識到它很危險,但是你可能需要喝數(shù)千次咖啡才能確定它是否會讓你頭痛。
事實上,最明智的大數(shù)據(jù)公司??s減其數(shù)據(jù)。在谷歌公司,很多重大決定都是基于其全部數(shù)據(jù)中極少量的樣本做出的。
**谷歌搜索如此有價值的一個主要原因不是這些數(shù)據(jù)的量有多大,而是人們對谷歌很誠實。**人們會對朋友、愛人、醫(yī)生、調(diào)查人員乃至他們自己說謊,但在谷歌網(wǎng)站,他們可能會分享令人尷尬的信息。
**最重要的是,為了從大數(shù)據(jù)中獲得見解,問題必須問到點上。**正如你不能隨意用望遠鏡望向夜空就發(fā)現(xiàn)冥王星一樣,你也不能下載一大堆數(shù)據(jù)就指望可以發(fā)現(xiàn)人性的秘密。
本書將會展示如何最合理地使用大數(shù)據(jù),并詳細解釋大數(shù)據(jù)為什么會這么強大。在探討這些話題之前,我們需要討論一個更加基本的問題:我們到底為什么需要數(shù)據(jù)?
第一部分 大數(shù)據(jù),小數(shù)據(jù)
第一章 你的直覺出錯了
好的數(shù)據(jù)科學遠沒有人們想象的那么復雜。事實上,最好的數(shù)據(jù)科學便是一種出乎意料的直覺。為什么數(shù)據(jù)科學可以憑直覺感知呢?數(shù)據(jù)科學的核心在于發(fā)現(xiàn)不同模式以及預測一個變量如何影響其他變量。人們一直在做這類事情。
如果最好的數(shù)據(jù)科學的方法通常既具有本能性又具有直覺性,那么一個關(guān)于大數(shù)據(jù)價值的根本問題就來了。如果人類天生就是數(shù)據(jù)科學家,如果僅憑直覺就能研究數(shù)據(jù)科學,那么為什么我們還需要電腦或統(tǒng)計軟件呢?為什么我們還需要KS –檢驗呢?我們就不能相信直覺嗎?
哥倫比亞大學和微軟的研究提供了嚴謹?shù)臄?shù)據(jù)科學與電腦相結(jié)合的明顯例證**,該例證告訴我們有些事僅憑直覺是永遠無法了解的。這個例子也說明數(shù)據(jù)集大小的重要性。有時候我們的經(jīng)驗不足,無法通過直覺得出結(jié)論。**
盡管直覺也許常常讓我們感覺很了解這個世界的運作方式,但這種感覺往往是不確切的。我們需要用數(shù)據(jù)使其清晰化。
在沒有電腦幫助的情況下,我們的直覺有時確實讓人眼前一亮,但直覺有可能釀成大錯,我們傾向于夸大個人經(jīng)驗的作用。用數(shù)據(jù)科學家的話說就是,我們總會給自己的數(shù)據(jù)加權(quán),總是過于重視一個特別的數(shù)據(jù)點——我們自己。
**我們總會高估所有令人印象深刻的事物的作用。**換句話說,**當我們憑借自己的親耳所聞或親身經(jīng)歷來判定這個世界的運作模式時,通常都會出錯。**雖然最好的數(shù)據(jù)科學方法通常是具有直覺性的,但其結(jié)果多是反直覺的。數(shù)據(jù)科學采用既具本能性又具直覺性的人工流程(先發(fā)現(xiàn)模式,而后理解其內(nèi)涵)并向其中注入更多功能,這樣我們可能會看到這個世界的運作方式與我們之前想象的完全不同。
NBA球員家庭背景案例:是在貧窮家庭長大的孩子更有可能進入NBA,還是在中產(chǎn)階層家庭長大的孩子更有可能?
第一個相關(guān)數(shù)據(jù)就是每名運動員的出生地。我記錄了20世紀80年代美國每個縣出生的黑人男孩和白人男孩的數(shù)量。隨后,我又記錄了其中有多少人成功進入了NBA。我將這一數(shù)字和每個縣的平均家庭收入做了對比,還掌握了各縣的種族人口統(tǒng)計數(shù)據(jù)(這是另一本書的主題),最后我發(fā)現(xiàn)黑人進入NBA的可能性比白人大40倍。數(shù)據(jù)顯示,如果一個孩子出生在富裕的縣,他就有更多的機會進入NBA。
我又調(diào)查了NBA球員的家庭背景。這些信息是從新聞報道和社交網(wǎng)絡中找到的。這種方法相當耗時,不論是縣級的出生數(shù)據(jù)還是作為特定樣本的那些球員的家庭背景都無法提供所有NBA球員童年的完美信息。
后來我又想起了一個數(shù)據(jù)點,這個數(shù)據(jù)點可以為個人背景調(diào)查提供有效線索,是由羅蘭·弗賴爾(Roland Fryer)和史蒂芬·列維特(Steven Levitt)這兩位經(jīng)濟學家在一篇論文中提出的——黑人的名字能夠體現(xiàn)其社會經(jīng)濟背景。富裕家庭的父母傾向于給孩子取一個常見的名字,而那些貧困家庭的單身母親則更有可能給孩子取一個獨特的名字。
截至目前,我們已經(jīng)搜集了三份不同的證據(jù):出生地、得分王母親的婚姻狀況和球員的名字。三份證據(jù)都不夠完美,但都印證了相同的結(jié)果——社會經(jīng)濟地位越高,意味著進入NBA的可能性就越大。也就是說,傳統(tǒng)的觀念是錯誤的。
數(shù)據(jù)科學家的目標是了解世界。一旦發(fā)現(xiàn)了反直覺性的結(jié)果,我們就可以運用更多的數(shù)據(jù)科學知識來解釋為什么世界并非我們看到的那樣。
第二部分 大數(shù)據(jù)的力量
第二章 弗洛伊德是正確的嗎
西格蒙德·弗洛伊德的理論是正確的嗎?有奧地利裔英國哲學家卡爾·波普爾(Karl Popper)對這一問題做出了明確回答,他高調(diào)宣稱我們無法驗證弗洛伊德的理論。也就是說,沒有任何辦法可以驗證這些理論的真?zhèn)巍?/p>
過去我們沒有辦法將弗洛伊德的理論應用于實際測試中?,F(xiàn)在有辦法了。數(shù)據(jù)科學證實弗洛伊德的許多理論是毫無根據(jù)的——這門科學將他的許多著名理論應用于測驗中。
再來看看弗洛伊德式失言。弗洛伊德假定人們用失誤(口誤或筆誤)來表達自己的潛意識,通常和性相關(guān)。
可以使用大數(shù)據(jù)來檢驗這一理論嗎?有這樣一種辦法:看看我們的失誤(失言)是否有性的傾向。這就是我要研究微軟研究人員搜集的那4萬多個打字錯誤的數(shù)據(jù)集的原因。這個數(shù)據(jù)集中包含人們打錯字后立即糾正的錯誤。
為了找到答案,我首先使用了微軟的數(shù)據(jù)集來模擬人們錯誤替換特定字母的頻率。我計算了用字母s替換字母t和用字母h替換字母g這兩種情況的頻率。其次,我創(chuàng)建了一個模擬人類犯錯方式的計算機程序,我們可以稱之為Error Bot。
通過比較Error Bot和粗心的人類,我們能了解到什么呢?在以人類替換字母的方式制造出數(shù)百萬個錯誤之后,Error Bot犯了許多弗洛伊德性質(zhì)的錯誤。
重點來了,毫無潛意識的Error Bot和人類一樣,也會犯與性相關(guān)的錯誤。這個研究警示我們,就像許多社會學家常說的一樣,我們還需要做更多的研究。也就是說,這種與性相關(guān)的錯誤并不是人們故意為之的,而是無意間發(fā)生的。
弗洛伊德關(guān)于失誤可以揭示人們潛意識需求的理論被證實是毫無根據(jù)的——并且根據(jù)我的數(shù)據(jù)分析,這個理論根本就是錯誤的。
請記住,我們已經(jīng)說過,單純的一堆堆數(shù)據(jù),其本身并不會自動生成任何見解。數(shù)據(jù)大小本身被高估了。那么,為什么大數(shù)據(jù)又如此強大呢?為什么它又可以掀起一場“如何看待自己的革命”呢?我認為,大數(shù)據(jù)有四大獨特功能,對弗洛伊德的這一分析提供了一個很好的例證。
提供新型數(shù)據(jù)是大數(shù)據(jù)的第一大功能。有關(guān)各種主題的獨特數(shù)據(jù)來源為我們打開了一扇窗,通往過去僅存在于我們猜測中的領域。
提供可靠的數(shù)據(jù)是大數(shù)據(jù)的第二大功能。在前數(shù)字時代,人們在人前掩飾著自己羞于啟齒的想法。在數(shù)字時代,他們在人前仍然將這些想法隱藏起來,但沒能瞞過互聯(lián)網(wǎng),尤其是谷歌和色情網(wǎng)站這種保護他們隱私的網(wǎng)站。
允許我們放大人群子集是大數(shù)據(jù)的第三大功能。因為現(xiàn)在有了如此多的數(shù)據(jù),所以即便只有一小群人也可以提取有意義的信息。
允許我們進行許多因果試驗是大數(shù)據(jù)的第四大功能。不僅可以測試相關(guān)性,而且可以測試因果性。
第三章 數(shù)據(jù)重構(gòu)
谷歌搜索能否像房價和流感的晴雨表一樣,成為失業(yè)率調(diào)查的試紙呢?僅僅依靠谷歌搜索,我們能否得知有多少人失業(yè),能否在政府核對出調(diào)查結(jié)果之前統(tǒng)計出可靠數(shù)據(jù)呢?
我發(fā)現(xiàn),與消遣相關(guān)的綜合性搜索可以追蹤失業(yè)率,并能成為預測失業(yè)率的完美模板的一部分。這個例子說明了大數(shù)據(jù)的第一個功能——提供新型數(shù)據(jù)。通常,大數(shù)據(jù)的價值不在于它的大小,而在于它可以為你的研究提供新的信息,提供過去從未有人搜集到的信息。
谷歌的成功是建立在對一種新型數(shù)據(jù)的搜集之上的。與谷歌一樣,所有人都試圖使用數(shù)據(jù)來了解世界。大數(shù)據(jù)革命并不在于數(shù)據(jù)的量,而在于數(shù)據(jù)的質(zhì)。
本章的要點:**新的非常規(guī)數(shù)據(jù)的巨大價值。**其中傳達的原理也有助于我們理解這場以數(shù)字為根基的數(shù)據(jù)革命。
以身體為數(shù)據(jù)
馬主如何才能選到一匹能賺大錢的馬呢?過去,人們認為預測一匹馬能否成功的最好辦法是分析它的血統(tǒng)。除了血統(tǒng)外,賽馬代理人還會考慮其他信息。例如,他們會分析兩周歲馬的步態(tài),并以眼觀馬。
塞德對傳統(tǒng)的相馬方式毫無興趣,他只對數(shù)據(jù)感興趣。他計劃要測量賽馬的各種屬性,看看其中哪些與它們的表現(xiàn)相關(guān)。
塞德發(fā)現(xiàn),一般來說,賽馬的左心室越大,在比賽中成績就越好,但是,如果左心室如此之大,其他器官卻很小,則可能是患有疾病的征兆。美國法老王所有關(guān)鍵器官的大小都高于平均水平,左心室更是超大。數(shù)據(jù)表示,85號是十萬里挑一甚至百萬里挑一的好馬!
數(shù)據(jù)科學家可以從塞德的項目中學到什么呢?**首先,或許也是最重要的一點,如果你想嘗試使用新的數(shù)據(jù)來革新一個領域,那么最好是進入一個舊方法不見效的領域。**被塞德?lián)魯〉哪切┏撩杂谘y(tǒng)的賽馬代理人為該領域留下了很大的改進空間。被谷歌打敗的那些癡迷于數(shù)據(jù)的搜索引擎也為該領域留下了進步空間。
其次,試圖做預測時,不必太擔心模型的工作原理。塞德在做的是預測工作,而不是解釋工作。在預測工作中,你只需要知道什么東西有用,無須知道為什么。
**最后一個啟示是,在確定什么是數(shù)據(jù)時,你必須抱有開放而又靈活的心態(tài)。**傳統(tǒng)的賽馬代理人并非不知道數(shù)據(jù)。他們也會仔細檢查比賽次數(shù)和血統(tǒng)圖表。塞德的天才之處在于,**他會尋找他人從未關(guān)注過的數(shù)據(jù),還會考量非傳統(tǒng)的數(shù)據(jù)來源。**對一位數(shù)據(jù)科學家來說,一個全新的獨特視角是一定會帶來回報的。
文字數(shù)據(jù)
兩位學者想知道語言到底是不是理解偏好的關(guān)鍵點?
從“美利堅合眾國”(TheUnited States are…)與“美國”(The United States is…)在不同年份出現(xiàn)在書中的頻率說明美國民族認同感是如何形成的。
通過男性和女性首次約會時說話的方式,我們就能預測他們會不會還有第二次約會。
總結(jié)
以上是生活随笔為你收集整理的《人人都在说谎:赤裸裸的数据真相》读书笔记1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (个人理解+转载)ANSI/ASCII/
- 下一篇: 服务器自带的ftp报错505,使用Del