数据分析入门极简书单
本文授權(quán)轉(zhuǎn)載自麻瓜編程
如果你找一個(gè)熟悉的朋友給你推薦書單,他會(huì)傾向于越短越好,因?yàn)樗氚阉赖淖詈玫耐扑]給你,讓你少花時(shí)間在不重要的事情上。
但如果你在網(wǎng)上看到一個(gè)書單,往往會(huì)發(fā)現(xiàn)都很長長長長長,長到你覺得別人都能日讀40萬字而自己是個(gè)天天刷朋友圈的懶癌患者。別擔(dān)心,告訴你個(gè)小秘密,列書單的人很可能自己也沒讀完書單里的書哦。
所以我想做的是像你的朋友一樣,推薦一份數(shù)據(jù)分析入門的極簡書單給你,并且?guī)湍闵疃仍u測,告訴你什么是最值得讀的、不得不讀的。
你不是吃個(gè)火鍋都要看評測嗎?吃火鍋也就花個(gè)兩小時(shí)吧,但是讀一本書,很可能要花上一個(gè)月時(shí)間呀,這么大的時(shí)間成本,總應(yīng)該更慎重的做出決定吧。
以下評測會(huì)從數(shù)據(jù)分析崗位必備的三個(gè)技能出發(fā):
SQL
統(tǒng)計(jì)學(xué)
Python 數(shù)據(jù)分析?
最終獲得的結(jié)果是相應(yīng)的3本最推薦的入門書。
一提到 SQL 入門,呼聲最高的是這3本書:
《MySQL必知必會(huì)》- Ben Forta[1]
《SQL必知必會(huì)》- Ben Forta[2]
《SQL基礎(chǔ)教程》- Mick[3]
《MySQL必知必會(huì)》還是《SQL必知必會(huì)》傻傻分不清楚?
首先要搞清楚的一件事,《MySQL必知必會(huì)》和《SQL必知必會(huì)》是同一個(gè)作者 Ben Forta ,《SQL必知必會(huì)》的前20章所有內(nèi)容在《MySQL必知必會(huì)》里都有,并且多了10章針對 MySQL 的內(nèi)容。
這是作者在前言中的解釋:
考慮到在中國 MySQL 還是占主流,評測時(shí)選擇了后出版的、內(nèi)容更豐富的《MySQL必知必會(huì)》。
(出版社喜歡把這兩本捆綁在一起賣,真的沒必要都買,80%內(nèi)容都雷同的)
知識結(jié)構(gòu) PK
先放上兩張我悉心整理的全書思維導(dǎo)圖,一眼就可以看出《MySQL必知必會(huì)》和《SQL基礎(chǔ)教程》的不同:
《MySQL必知必會(huì)》思維導(dǎo)圖[4]
《SQL基礎(chǔ)教程》思維導(dǎo)圖[5]
《MySQL必知必會(huì)》這本書講解的非常的全面。
光是最常用的 SELECT語句就花了12章來細(xì)細(xì)講解。并且整本讀下來會(huì)感覺到邏輯是非常清晰的,時(shí)刻知道自己學(xué)的是知識體系上的哪一個(gè)分支。
而《SQL基礎(chǔ)教程》的講述結(jié)構(gòu)并不是按照知識的邏輯,而是按照使用的邏輯。
所以你會(huì)看到在思維導(dǎo)圖上會(huì)出現(xiàn)同一章的不同節(jié)被拆開放到了不同分支的情況,第三章第一節(jié)還在講聚合函數(shù),到了第二節(jié)就去講 SELECT 語句的 GROUP BY 子句了,因?yàn)樵谧髡呖磥磉@兩節(jié)都是用來解決「聚合與排序」這個(gè)使用場景的問題,所以就被歸納到了一起。
和《MySQL必知必會(huì)》相比其實(shí)是少了很多知識點(diǎn)的,《MySQL必知必會(huì)》用了4章去講解的 WHERE 子句,在《SQL基礎(chǔ)教程》中就只有1小節(jié)帶過。
講述方式 PK
這里對比一下最基本的 SELECT 語句這個(gè)知識點(diǎn)的講述方式:
《MySQL必知必會(huì)》的講述方式幾乎沒什么廢話,直接上案例,需要輸入什么代碼,會(huì)輸出什么結(jié)果,都用很清晰的方式呈現(xiàn)出來。對于一些細(xì)枝末節(jié)的細(xì)節(jié)提示和說明,都采用灰框的方式附在案例后面逐一列出。
《SQL基礎(chǔ)教程》使用了雙色印刷,配了表格圖片去幫助讀者理解。在案例代碼之前,還會(huì)多給一個(gè)基本語法的示例,講解同一個(gè)知識點(diǎn)的篇幅會(huì)更長,甚至?xí)悬c(diǎn)啰嗦。
對比來看,《MySQL必知必會(huì)》的簡明的講述方式更適合喜歡簡單直接的理工直男,《SQL基礎(chǔ)教程》更適合喜歡詳盡說明的文科生。
對學(xué)習(xí)過程的考慮 PK
《MySQL必知必會(huì)》在每章的開始會(huì)有一個(gè)一句話簡介,每章的末尾會(huì)有一小段的小結(jié),和整體的行文風(fēng)格一樣,都是非常簡明扼要的,也方便查閱。
《SQL基礎(chǔ)教程》在每章和每節(jié)開始之前會(huì)有一個(gè)詳盡的說明和學(xué)習(xí)重點(diǎn)清單,在每章結(jié)束時(shí)會(huì)有幾道練習(xí)題。
SQL 入門推薦書:《MySQL必知必會(huì)》
如果你需要在工作中用到 SQL,還是更推薦《MySQL必知必會(huì)》,這本書的知識點(diǎn)覆蓋是更全面的,簡明扼要的風(fēng)格也方便隨時(shí)查閱。
如果你缺乏理工科背景、抽象思維比較弱、注意力已經(jīng)被碎片化閱讀摧毀,可以先閱讀《SQL基礎(chǔ)教程》,更便于你理解。能上手了之后,再去讀《MySQL必知必會(huì)》補(bǔ)全知識體系。
作為統(tǒng)計(jì)學(xué)的入門,我們以這兩本書來進(jìn)行深入對比。
《深入淺出統(tǒng)計(jì)學(xué)》- Dawn Griffiths[6]
《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》-詹姆斯·麥克拉夫[7]
統(tǒng)計(jì)學(xué)的教材可以說是非常多了,并且相似度很高,在這里選取人大出版的這本經(jīng)典之作《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》。
有些 900 多頁的教材屬于進(jìn)階學(xué)習(xí),不算是入門書了。?
另外一些社科雞湯類的書也沒有放進(jìn)來,在我看來,人是無法以繞開知識本身的方式學(xué)到知識的。
知識結(jié)構(gòu) PK
還是先放兩張全書思維導(dǎo)圖
《深入淺出統(tǒng)計(jì)學(xué)》思維導(dǎo)圖[8]
《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》思維導(dǎo)圖[9]
《深入淺出統(tǒng)計(jì)學(xué)》涵蓋了基本的統(tǒng)計(jì)學(xué)概念,默認(rèn)讀者是零基礎(chǔ)。
甚至連平均數(shù)、中位數(shù)這種小學(xué)六年級教材中的基礎(chǔ)知識都會(huì)細(xì)細(xì)講解。一般來說,一本書越是照顧零基礎(chǔ),書的知識點(diǎn)深度就會(huì)越低,這本也不例外。包括比較重點(diǎn)的描述統(tǒng)計(jì)、假設(shè)驗(yàn)證都停留在簡單例子的步驟上。
當(dāng)然,這種方式的好處是激發(fā)讀者興趣,如果一本書是用漫畫或者小說去講解統(tǒng)計(jì)學(xué),那知識點(diǎn)深度就更低了。
《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》的結(jié)構(gòu)就是按照知識的邏輯來進(jìn)行講述的。
知識難度會(huì)循序漸進(jìn)的去遞進(jìn),先讓你理解最簡單的情景,再逐漸去增加情景的復(fù)雜度,比如從單樣本到多樣本,從簡單線性回歸到多元線性回歸。并且所有案例都是基于真實(shí)的數(shù)據(jù)去展開的,這也讓知識點(diǎn)的覆蓋更加全面。
講述方式 PK
這里用統(tǒng)計(jì)學(xué)里一個(gè)經(jīng)典的知識點(diǎn)「正態(tài)分布」來對比兩本書講述方式的不同:
《深入淺出統(tǒng)計(jì)學(xué)》用生活中的小事作為案例,一個(gè)女生找高個(gè)男朋友的例子去引出正態(tài)分布的概念,用了很多的插圖去輔助讀者理解,并且每個(gè)概念后面會(huì)有一個(gè)「世上沒有傻問題」的欄目去整理出所有的常見問題和回答,解答初學(xué)者心中的疑問。?
我還沒見過看不懂《深入淺出》的人呢,這個(gè)難度高一學(xué)生也能看懂的。有些地方甚至?xí)杏X太簡單而讀不下去。
《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》不像一般的教材會(huì)寫大段的概念和定義,而是用了大量的例子幫助讀者真正理解,講正態(tài)分布這一個(gè)概念就用了 9 個(gè)例子。并且這些例子都是用的真實(shí)的數(shù)據(jù)和貼近實(shí)際工作的場景。
對學(xué)習(xí)過程的考慮 PK
《深入淺出統(tǒng)計(jì)學(xué)》的「動(dòng)動(dòng)腦」欄目通過問題促使讀者思考。「動(dòng)動(dòng)筆」欄目通過幾道練習(xí)題,讓你動(dòng)手練習(xí),在下一頁有「動(dòng)動(dòng)筆解答」。「要點(diǎn)」欄目概括了這一小節(jié)的重點(diǎn)內(nèi)容。
《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》每章有一個(gè)章末小結(jié),包括這幾點(diǎn):
關(guān)鍵術(shù)語
關(guān)鍵符號
關(guān)鍵知識點(diǎn)
關(guān)鍵公式
所有總結(jié)要點(diǎn)都以要點(diǎn)或表格的方式簡練概括。 另外還有本章相應(yīng)的練習(xí)題。
統(tǒng)計(jì)學(xué)入門推薦書:《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》
如果你是理工科背景、或者在本科學(xué)習(xí)過高等數(shù)學(xué),可以選擇《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》,其中大量的實(shí)際案例能讓你更容易補(bǔ)全知識體系、上手實(shí)際應(yīng)用。
如果你的數(shù)學(xué)基礎(chǔ)較弱,可以選擇《深入淺出統(tǒng)計(jì)學(xué)》,跟著練一遍,這是人人都能看懂的。
數(shù)據(jù)分析入門的經(jīng)典書籍,我們以這兩本口碑最好的來進(jìn)行對比:
《利用Python進(jìn)行數(shù)據(jù)分析第一版》- Wes McKinney[10]?
《利用Python進(jìn)行數(shù)據(jù)分析第二版》- Wes McKinney[11]?
《Python數(shù)據(jù)科學(xué)手冊》- Jake VanderPlas[12]
利用 Python 進(jìn)行數(shù)據(jù)分析第一版還是第二版?
很多人在推薦這本書時(shí)會(huì)放第一版的封面圖,在這里旗幟鮮明的反對!
第一版和第二版隔了整整 6 年時(shí)間;第一版用的是 Python2.7,第二版用的是 Python3.6;第一版用的是 pandas 0.1.0 版本,第二版用的是 pandas 0.22.0 版本。技術(shù)變化這么快,當(dāng)然要選第二版。
而且兩個(gè)版本很好區(qū)分的,第二版的耗子頭是朝左的,而不是像第一版那樣朝右的。讀者朋友們,請認(rèn)清朝左的耗子頭啊!
知識結(jié)構(gòu) PK
還是先放兩張全書思維導(dǎo)圖
《利用Python進(jìn)行數(shù)據(jù)分析 第二版》思維導(dǎo)圖[13]
《Python數(shù)據(jù)科學(xué)手冊》思維導(dǎo)圖[14]
《利用Python進(jìn)行數(shù)據(jù)分析》這本書的層級結(jié)構(gòu)設(shè)計(jì)的非常漂亮。
我特地用了不同的顏色去體現(xiàn)了他的層次。
大家都知道,這本書的作者 Wes McKinney 就是 pandas 庫的主要作者,但這本書的結(jié)構(gòu)并不是圍繞著 pandas 庫而展開的——不然就直接去看 pandas 文檔好了。這本書的結(jié)構(gòu)超越了某個(gè)庫或者某個(gè)語言,最核心的部分是以數(shù)據(jù)分析的工作流展開的,從數(shù)據(jù)載入、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整到數(shù)據(jù)可視化、數(shù)據(jù)建模。這種結(jié)構(gòu)對于不熟悉數(shù)據(jù)分析工作流的讀者是非常有幫助的。
并且這本書的第 2 章、第 3 章包含了數(shù)據(jù)分析會(huì)用到的 Python 基礎(chǔ)語法,對零基礎(chǔ)的讀者挺友好的。
《Python數(shù)據(jù)科學(xué)手冊》這本書的結(jié)構(gòu)非常扁平,就 5 章。
第 1 章著重介紹了作者偏愛的 IPython 的各種用法,然后 NumPy, pandas, matplotlib 各一章,第 5 章是機(jī)器學(xué)習(xí)。整體是以知識邏輯去組織的。
講述方式 PK
這里選取數(shù)據(jù)清洗工作中的一個(gè)關(guān)鍵知識點(diǎn)「過濾缺失值」來進(jìn)行兩本書的對比。
《利用Python進(jìn)行數(shù)據(jù)分析》在講解「過濾缺失值」時(shí)會(huì)選取最好用的一種方法進(jìn)行細(xì)致講解,然后說明了如何剔除含有缺失值的行、列。以及個(gè)性化的配置。
《Python數(shù)據(jù)科學(xué)手冊》在講解「過濾缺失值」時(shí)也使用了 dropna() 方法,代碼部分幾乎和《利用Python進(jìn)行數(shù)據(jù)分析》一致,文字?jǐn)⑹錾蠈κ褂脠鼍暗臄⑹鰰?huì)略多一些。
對學(xué)習(xí)過程的考慮 PK
《利用Python進(jìn)行數(shù)據(jù)分析》有比較簡略的每章前言和每章小節(jié),比較有特色的是篇幅中會(huì)穿插 3 類提示,分別是:提示或建議、一般性說明、警告。另外會(huì)有大量表格整理有用的方法。沒有練習(xí)題。
《Python數(shù)據(jù)科學(xué)手冊》把上章小結(jié)和本章前言合并在一起講。另外每章末尾有一個(gè)參考資料合集。也沒有練習(xí)題。
數(shù)據(jù)分析入門推薦書:《利用 Python 進(jìn)行數(shù)據(jù)分析第二版》
《利用Python進(jìn)行數(shù)據(jù)分析 第二版》的知識結(jié)構(gòu)更勝一籌。
這本書的作者 Wes McKinney 就是 pandas 庫的主要作者。全書最核心的部分是以數(shù)據(jù)分析的工作流展開的,從數(shù)據(jù)載入、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)整到數(shù)據(jù)可視化、數(shù)據(jù)建模。這種結(jié)構(gòu)對于不熟悉數(shù)據(jù)分析工作流的讀者是非常有幫助的。
下次,如果你有朋友問你,學(xué)數(shù)據(jù)分析應(yīng)該看哪本書?就直接把這篇測評發(fā)給他就可以啦。
References
[1]?《MySQL必知必會(huì)》- Ben Forta:?https://link.zhihu.com/?target=https%3A//book.douban.com/subject/3354490/
[2]?《SQL必知必會(huì)》- Ben Forta:?https://book.douban.com/subject/24250054/
[3]?《SQL基礎(chǔ)教程》- Mick:?https://book.douban.com/subject/24841239/
[4]?《MySQL必知必會(huì)》思維導(dǎo)圖:?https://video.mugglecode.com/MySQLcrash.png
[5]?《SQL基礎(chǔ)教程》思維導(dǎo)圖:?https://video.mugglecode.com/SQLmick.png
[6]?《深入淺出統(tǒng)計(jì)學(xué)》- Dawn Griffiths:?https://link.zhihu.com/?target=http%3A//book.douban.com/subject/7056708/
[7]?《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》-詹姆斯·麥克拉夫:?https://book.douban.com/subject/26410924/
[8]?《深入淺出統(tǒng)計(jì)學(xué)》思維導(dǎo)圖:?https://video.mugglecode.com/HeadFirstStatistics.png
[9]?《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)學(xué)》思維導(dǎo)圖:?https://video.mugglecode.com/StatisticsForBE.png
[10]?《利用Python進(jìn)行數(shù)據(jù)分析第一版》- Wes McKinney:?https://link.zhihu.com/?target=https%3A//book.douban.com/subject/25779298/
[11]?《利用Python進(jìn)行數(shù)據(jù)分析第二版》- Wes McKinney:?https://link.zhihu.com/?target=https%3A//book.douban.com/subject/25779298/
[12]?《Python數(shù)據(jù)科學(xué)手冊》- Jake VanderPlas:?https://book.douban.com/subject/27667378/
[13]?《利用Python進(jìn)行數(shù)據(jù)分析 第二版》思維導(dǎo)圖:?https://video.mugglecode.com/PythonForDA2nd.png
[14]?《Python數(shù)據(jù)科學(xué)手冊》思維導(dǎo)圖:?https://video.mugglecode.com/PDS.png
總結(jié)
以上是生活随笔為你收集整理的数据分析入门极简书单的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文看懂神经网络初始化!吴恩达Deepl
- 下一篇: 阿里算法工程师公开机器学习路线,你的路走