机器学习经典书籍
FROM: http://suanfazu.com/t/ji-qi-xue-xi-jing-dian-shu-ji/15
前面有一篇機(jī)器學(xué)習(xí)經(jīng)典論文/survey合集。本文總結(jié)了機(jī)器學(xué)習(xí)的經(jīng)典書籍,包括數(shù)學(xué)基礎(chǔ)和算法理論的書籍。本文會(huì)保持更新,歡迎推薦。
入門書單
《數(shù)學(xué)之美》 PDF83
作者吳軍大家都很熟悉。以極為通俗的語(yǔ)言講述了數(shù)學(xué)在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域的應(yīng)用。
《Programming Collective Intelligence》(《集體智慧編程》)PDF51
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《數(shù)據(jù)之美:解密優(yōu)雅數(shù)據(jù)解決方案背后的故事》)的作者。這本書最大的優(yōu)勢(shì)就是里面沒(méi)有理論推導(dǎo)和復(fù)雜的數(shù)學(xué)公式,是很不錯(cuò)的入門書。目前中文版已經(jīng)脫銷,對(duì)于有志于這個(gè)領(lǐng)域的人來(lái)說(shuō),英文的pdf是個(gè)不錯(cuò)的選擇,因?yàn)楹竺嬗泻芏嘟?jīng)典書的翻譯都較差,只能看英文版,不如從這個(gè)入手。還有,這本書適合于快速看完,因?yàn)閾?jù)評(píng)論,看完一些經(jīng)典的帶有數(shù)學(xué)推導(dǎo)的書后會(huì)發(fā)現(xiàn)這本書什么都沒(méi)講,只是舉了很多例子而已。
《Algorithms of the Intelligent Web》(《智能web算法》)PDF23
作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧編程》要略多一點(diǎn),里面的例子多是互聯(lián)網(wǎng)上的應(yīng)用,看名字就知道。不足的地方在于里面的配套代碼是BeanShell而不是python或其他。總起來(lái)說(shuō),這本書還是適合初學(xué)者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細(xì)看代碼,了解算法主要思想就行了。
《統(tǒng)計(jì)學(xué)習(xí)方法》 PDF62
作者李航,是國(guó)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域的幾個(gè)大家之一,曾在MSRA任高級(jí)研究員,現(xiàn)在華為諾亞方舟實(shí)驗(yàn)室。書中寫了十個(gè)算法,每個(gè)算法的介紹都很干脆,直接上公式,是徹頭徹尾的“干貨書”。每章末尾的參考文獻(xiàn)也方便了想深入理解算法的童鞋直接查到經(jīng)典論文;本書可以與上面兩本書互為輔助閱讀。
《Machine Learning》(《機(jī)器學(xué)習(xí)》) PDF52
作者Tom Mitchell是CMU的大師,有機(jī)器學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)課程視頻。這本書是領(lǐng)域內(nèi)翻譯的較好的書籍,講述的算法也比《統(tǒng)計(jì)學(xué)習(xí)方法》的范圍要大很多。據(jù)評(píng)論這本書主要在于啟發(fā),講述公式為什么成立而不是推導(dǎo);不足的地方在于出版年限較早,時(shí)效性不如PRML。但有些基礎(chǔ)的經(jīng)典還是不會(huì)過(guò)時(shí)的,所以這本書現(xiàn)在幾乎是機(jī)器學(xué)習(xí)的必讀書目。
《Mining of Massive Datasets》(《大數(shù)據(jù)》) PDF16
作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。這本書介紹了很多算法,也介紹了這些算法在數(shù)據(jù)規(guī)模比較大的時(shí)候的變形。但是限于篇幅,每種算法都沒(méi)有展開講的感覺(jué),如果想深入了解需要查其他的資料,不過(guò)這樣的話對(duì)算法進(jìn)行了解也足夠了。還有一點(diǎn)不足的地方就是本書原文和翻譯都有許多錯(cuò)誤,勘誤表比較長(zhǎng),讀者要用心了。
《Data Mining: Practical Machine Learning Tools and Techniques》(《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)》) PDF13
作者Ian H. Witten 、Eibe Frank是weka的作者、新西蘭懷卡托大學(xué)教授。他們的《ManagingGigabytes》[4]也是信息檢索方面的經(jīng)典書籍。這本書最大的特點(diǎn)是對(duì)weka的使用進(jìn)行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經(jīng)典的入門書籍如《集體智慧編程》、《智能web算法》已經(jīng)很經(jīng)典,學(xué)習(xí)的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒(méi)講到的算法。
《機(jī)器學(xué)習(xí)及其應(yīng)用》
周志華、楊強(qiáng)主編。來(lái)源于“機(jī)器學(xué)習(xí)及其應(yīng)用研討會(huì)”的文集。該研討會(huì)由復(fù)旦大學(xué)智能信息處理實(shí)驗(yàn)室發(fā)起,目前已舉辦了十屆,國(guó)內(nèi)的大牛如李航、項(xiàng)亮、王海峰、劉鐵巖、余凱等都曾在該會(huì)議上做過(guò)講座。這本書講了很多機(jī)器學(xué)習(xí)前沿的具體的應(yīng)用,需要有基礎(chǔ)的才能看懂。如果想了解機(jī)器學(xué)習(xí)研究趨勢(shì)的可以瀏覽一下這本書。關(guān)注領(lǐng)域內(nèi)的學(xué)術(shù)會(huì)議是發(fā)現(xiàn)研究趨勢(shì)的方法嘛。
《Managing Gigabytes》(深入搜索引擎)PDF7
信息檢索不錯(cuò)的書。
《Modern Information Retrieval》 PDF5
Ricardo Baeza-Yates et al. 1999。貌似第一本完整講述IR的書。可惜IR這些年進(jìn)展迅猛,這本書略有些過(guò)時(shí)了。翻翻做參考還是不錯(cuò)的。另外,Ricardo同學(xué)現(xiàn)在是Yahoo Research for Europe and Latin Ameria的頭頭。
《推薦系統(tǒng)實(shí)踐》 PDF13
項(xiàng)亮,不錯(cuò)的入門讀物
深入
《Pattern Classification》(《模式分類》第二版) PDF10
作者Richard O. Duda[5]、Peter E. Hart、David。模式識(shí)別的奠基之作,但對(duì)最近呈主導(dǎo)地位的較好的方法SVM、Boosting方法沒(méi)有介紹,被評(píng)“掛一漏萬(wàn)之嫌”。
《Pattern Recognition And Machine Learning》 PDF62
作者Christopher M. Bishop[6];簡(jiǎn)稱PRML,側(cè)重于概率模型,是貝葉斯方法的扛鼎之作,據(jù)評(píng)“具有強(qiáng)烈的工程氣息,可以配合stanford 大學(xué) Andrew Ng 教授的 Machine Learning 視頻教程一起來(lái)學(xué),效果翻倍?!?/p>
《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè)》第二版) PDF8
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個(gè)研究人員,發(fā)明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴(kuò)展了Boosting方法的應(yīng)用范圍。這本書對(duì)當(dāng)前最為流行的方法有比較全面深入的介紹,對(duì)工程人員參考價(jià)值也許要更大一點(diǎn)。另一方面,它不僅總結(jié)了已經(jīng)成熟了的一些技術(shù),而且對(duì)尚在發(fā)展中的一些議題也有簡(jiǎn)明扼要的論述。讓讀者充分體會(huì)到機(jī)器學(xué)習(xí)是一個(gè)仍然非?;钴S的研究領(lǐng)域,應(yīng)該會(huì)讓學(xué)術(shù)研究人員也有常讀常新的感受。”[7]
《Data Mining:Concepts andTechniques》(《數(shù)據(jù)挖掘:概念與技術(shù)》第三版) PDF3
作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是華裔。本書毫無(wú)疑問(wèn)是數(shù)據(jù)挖掘方面的的經(jīng)典之作,不過(guò)翻譯版總是被噴,沒(méi)辦法,大部分翻譯過(guò)來(lái)的書籍都被噴,想要不吃別人嚼過(guò)的東西,就好好學(xué)習(xí)英文吧。
《AI, Modern Approach 2nd》 PDF6
Peter Norvig,無(wú)爭(zhēng)議的領(lǐng)域經(jīng)典。
《Foundations of Statistical Natural Language Processing》 PDF5
自然語(yǔ)言處理領(lǐng)域公認(rèn)經(jīng)典。
《Information Theory:Inference and Learning Algorithms》 PDF3
《Statistical Learning Theory》 PDF5
Vapnik的大作,統(tǒng)計(jì)學(xué)界的權(quán)威,本書將理論上升到了哲學(xué)層面,他的另一本書《The Nature ofStatistical Learning Theory》也是統(tǒng)計(jì)學(xué)習(xí)研究不可多得的好書,但是這兩本書都比較深入,適合有一定基礎(chǔ)的讀者。
數(shù)學(xué)基礎(chǔ)
《矩陣分析》 PDF21
Roger Horn。矩陣分析領(lǐng)域無(wú)爭(zhēng)議的經(jīng)典
《概率論及其應(yīng)用》 PDF1
威廉·費(fèi)勒。極牛的書,可數(shù)學(xué)味道太重,不適合做機(jī)器學(xué)習(xí)的
《All Of Statistics》 PDF 掃描版8 PDF
高清版14
機(jī)器學(xué)習(xí)這個(gè)方向,統(tǒng)計(jì)學(xué)也一樣非常重要。推薦All of statistics,這是CMU的一本很簡(jiǎn)潔的教科書,注重概念,簡(jiǎn)化計(jì)算,簡(jiǎn)化與Machine Learning無(wú)關(guān)的概念和統(tǒng)計(jì)內(nèi)容,可以說(shuō)是很好的快速入門材料。
《Nonlinear Programming, 2nd》 PDF4
最優(yōu)化方法,非線性規(guī)劃的參考書。
《Convex Optimization》 PDF8 配套代碼5
Boyd的經(jīng)典書籍,被引用次數(shù)超過(guò)14000次,面向?qū)嶋H應(yīng)用,并且有配套代碼,是一本不可多得的好書。
《Numerical Optimization》 PDF5
第二版,Nocedal著,非常適合非數(shù)值專業(yè)的學(xué)生和工程師參考,算法流程清晰詳細(xì),原理清楚。
《Introduction to Mathematical Statistics》 PDF3
第六版,Hogg著,本書介紹了概率統(tǒng)計(jì)的基本概念以及各種分布,以及ML,Bayesian方法等內(nèi)容。
《An Introduction to Probabilistic Graphical Models》 PDF16
Jordan著,本書介紹了條件獨(dú)立、分解、混合、條件混合等圖模型中的基本概念,對(duì)隱變量(潛在變量)也做了詳細(xì)介紹,相信大家在隱馬爾科夫鏈和用Gaussian混合模型來(lái)實(shí)現(xiàn)EM算法時(shí)遇到過(guò)這個(gè)概念。
《Probabilistic Graphical Models-Principles and Techniques》 PDF6
Koller著,一本很厚很全面的書,理論性很強(qiáng),可以作為參考書使用。
具體數(shù)學(xué) PDF4
經(jīng)典
大家的補(bǔ)充
線性代數(shù) (Linear Algebra):
我想國(guó)內(nèi)的大學(xué)生都會(huì)學(xué)過(guò)這門課程,但是,未必每一位老師都能貫徹它的精要。這門學(xué)科對(duì)于Learning是必備的基礎(chǔ),對(duì)它的透徹掌握是必不可少的。我在科大一年級(jí)的時(shí)候就學(xué)習(xí)了這門課,后來(lái)到了香港后,又重新把線性代數(shù)讀了一遍,所讀的是
Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.
這本書是MIT的線性代數(shù)課使用的教材,也是被很多其它大學(xué)選用的經(jīng)典教材。它的難度適中,講解清晰,重要的是對(duì)許多核心的概念討論得比較透徹。我個(gè)人覺(jué)得,學(xué)習(xí)線性代數(shù),最重要的不是去熟練矩陣運(yùn)算和解方程的方法——這些在實(shí)際工作中MATLAB可以代勞,關(guān)鍵的是要深入理解幾個(gè)基礎(chǔ)而又重要的概念:子空間(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和線性變換(Linear transform)。從我的角度看來(lái),一本線代教科書的質(zhì)量,就在于它能否給這些根本概念以足夠的重視,能否把它們的聯(lián)系講清楚。Strang的這本書在這方面是做得很好的。
而且,這本書有個(gè)得天獨(dú)厚的優(yōu)勢(shì)。書的作者長(zhǎng)期在MIT講授線性代數(shù)課(18.06),課程的video在MIT的Open courseware網(wǎng)站上有提供。有時(shí)間的朋友可以一邊看著名師授課的錄像,一邊對(duì)照課本學(xué)習(xí)或者復(fù)習(xí)。
http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm5
概率和統(tǒng)計(jì) (Probability and Statistics):
概率論和統(tǒng)計(jì)的入門教科書很多,我目前也沒(méi)有特別的推薦。我在這里想介紹的是一本關(guān)于多元統(tǒng)計(jì)的基礎(chǔ)教科書:
Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern
這本書是我在剛接觸向量統(tǒng)計(jì)的時(shí)候用于學(xué)習(xí)的,我在香港時(shí)做研究的基礎(chǔ)就是從此打下了。實(shí)驗(yàn)室的一些同學(xué)也借用這本書學(xué)習(xí)向量統(tǒng)計(jì)。這本書沒(méi)有特別追求數(shù)學(xué)上的深度,而是以通俗易懂的方式講述主要的基本概念,讀起來(lái)很舒服,內(nèi)容也很實(shí)用。對(duì)于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。
之后就可以進(jìn)一步深入學(xué)習(xí)貝葉斯統(tǒng)計(jì)和Graphical models。一本理想的書是
Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.
我不知道這本書是不是已經(jīng)出版了(不要和Learning in Graphical Models混淆,那是個(gè)論文集,不適合初學(xué))。這本書從基本的貝葉斯統(tǒng)計(jì)模型出發(fā)一直深入到復(fù)雜的統(tǒng)計(jì)網(wǎng)絡(luò)的估計(jì)和推斷,深入淺出,statistical learning的許多重要方面都在此書有清楚論述和詳細(xì)講解。MIT內(nèi)部可以access,至于外面,好像也是有電子版的。
分析 (Analysis):
我想大家基本都在大學(xué)就學(xué)過(guò)微積分或者數(shù)學(xué)分析,深度和廣度則隨各個(gè)學(xué)校而異了。這個(gè)領(lǐng)域是很多學(xué)科的基礎(chǔ),值得推薦的教科書莫過(guò)于
Principles of Mathematical Analysis, by Walter Rudin
有點(diǎn)老,但是絕對(duì)經(jīng)典,深入透徹。缺點(diǎn)就是比較艱深——這是Rudin的書的一貫風(fēng)格,適合于有一定基礎(chǔ)后回頭去看。
在分析這個(gè)方向,接下來(lái)就是泛函分析(Functional Analysis)。
Introductory Functional Analysis with Applications, by Erwin Kreyszig.
適合作為泛函的基礎(chǔ)教材,容易切入而不失全面。我特別喜歡它對(duì)于譜論和算子理論的特別關(guān)注,這對(duì)于做learning的研究是特別重要的。Rudin也有一本關(guān)于functional analysis的書,那本書在數(shù)學(xué)上可能更為深刻,但是不易于上手,所講內(nèi)容和learning的切合度不如此書。
在分析這個(gè)方向,還有一個(gè)重要的學(xué)科是測(cè)度理論(Measure theory),但是我看過(guò)的書里面目前還沒(méi)有感覺(jué)有特別值得介紹的。
拓?fù)?(Topology):
在我讀過(guò)的基本拓?fù)鋾饔刑厣?#xff0c;但是綜合而言,我最推崇:
Topology (2nd Ed.) by James Munkres
這本書是Munkres教授長(zhǎng)期執(zhí)教MIT拓?fù)湔n的心血所凝。對(duì)于一般拓?fù)鋵W(xué)(General topology)有全面介紹,而對(duì)于代數(shù)拓?fù)?Algebraic topology)也有適度的探討。此書不需要特別的數(shù)學(xué)知識(shí)就可以開始學(xué)習(xí),由淺入深,從最基本的集合論概念(很多書不屑講這個(gè))到Nagata-Smirnov Theorem和Tychonoff theorem等較深的定理(很多書避開了這個(gè))都覆蓋了。講述方式思想性很強(qiáng),對(duì)于很多定理,除了給出證明過(guò)程和引導(dǎo)你思考其背后的原理脈絡(luò),很多令人贊嘆的亮點(diǎn)——我常讀得忘卻饑餓,不愿釋手。很多習(xí)題很有水平。
流形理論 (Manifold theory):
對(duì)于拓?fù)浜头治鲇幸欢ò盐諘r(shí),方可開始學(xué)習(xí)流形理論,否則所學(xué)只能流于浮淺。我所使用的書是
Introduction to Smooth Manifolds. by John M. Lee
雖然書名有introduction這個(gè)單詞,但是實(shí)際上此書涉入很深,除了講授了基本的manifold, tangent space, bundle, sub-manifold等,還探討了諸如綱理論(Category theory),德拉姆上同調(diào)(De Rham cohomology)和積分流形等一些比較高級(jí)的專題。對(duì)于李群和李代數(shù)也有相當(dāng)多的討論。行文通俗而又不失嚴(yán)謹(jǐn),不過(guò)對(duì)某些記號(hào)方式需要熟悉一下。
雖然李群論是建基于平滑流形的概念之上,不過(guò),也可能從矩陣出發(fā)直接學(xué)習(xí)李群和李代數(shù)——這種方法對(duì)于急需使用李群論解決問(wèn)題的朋友可能更加實(shí)用。而且,對(duì)于一個(gè)問(wèn)題從不同角度看待也利于加深理解。下面一本書就是這個(gè)方向的典范:
Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall
此書從開始即從矩陣切入,從代數(shù)而非幾何角度引入矩陣?yán)钊旱母拍?。并通過(guò)定義運(yùn)算的方式建立exponential mapping,并就此引入李代數(shù)。這種方式比起傳統(tǒng)的通過(guò)“左不變向量場(chǎng)(Left-invariant vector field)“的方式定義李代數(shù)更容易為人所接受,也更容易揭示李代數(shù)的意義。最后,也有專門的論述把這種新的定義方式和傳統(tǒng)方式聯(lián)系起來(lái)。
轉(zhuǎn)自水木
除了以下推薦的書以外,出版在Foundations and Trends in Machine Learning上面的survey文章都值得一看。
入門:
Pattern Recognition And Machine Learning
Christopher M. Bishop
Machine Learning : A Probabilistic Perspective
Kevin P. Murphy
The Elements of Statistical Learning : Data Mining, Inference, and Predictio
n
Trevor Hastie, Robert Tibshirani, Jerome Friedman
Information Theory, Inference and Learning Algorithms
David J. C. MacKay
All of Statistics : A Concise Course in Statistical Inference
Larry Wasserman
優(yōu)化:
Convex Optimization
Stephen Boyd, Lieven Vandenberghe
Numerical Optimization
Jorge Nocedal, Stephen Wright
Optimization for Machine Learning
Suvrit Sra, Sebastian Nowozin, Stephen J. Wright
核方法:
Kernel Methods for Pattern Analysis
John Shawe-Taylor, Nello Cristianini
Learning with Kernels : Support Vector Machines, Regularization, Optimizatio
n, and Beyond
Bernhard Schlkopf, Alexander J. Smola
半監(jiān)督:
Semi-Supervised Learning
Olivier Chapelle
高斯過(guò)程:
Gaussian Processes for Machine Learning (Adaptive Computation and Machine Le
arning)
Carl Edward Rasmussen, Christopher K. I. Williams
概率圖模型:
Graphical Models, Exponential Families, and Variational Inference
Martin J Wainwright, Michael I Jordan
Boosting:
Boosting : Foundations and Algorithms
Schapire, Robert E.; Freund, Yoav
貝葉斯:
Statistical Decision Theory and Bayesian Analysis
James O. Berger
The Bayesian Choice : From Decision-Theoretic Foundations to Computational I
mplementation
Christian P. Robert
Bayesian Nonparametrics
Nils Lid Hjort, Chris Holmes, Peter Müller, Stephen G. Walker
Principles of Uncertainty
Joseph B. Kadane
Decision Theory : Principles and Approaches
Giovanni Parmigiani, Lurdes Inoue
蒙特卡洛:
Monte Carlo Strategies in Scientific Computing
Jun S. Liu
Monte Carlo Statistical Methods
Christian P.Robert, George Casella
信息幾何:
Methods of Information Geometry
Shun-Ichi Amari, Hiroshi Nagaoka
Algebraic Geometry and Statistical Learning Theory
Watanabe, Sumio
Differential Geometry and Statistics
M.K. Murray, J.W. Rice
漸進(jìn)收斂:
Asymptotic Statistics
A. W. van der Vaart
Empirical Processes in M-estimation
Geer, Sara A. van de
不推薦:
Statistical Learning Theory
Vladimir N. Vapnik
Bayesian Data Analysis, Second Edition
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin
Probabilistic Graphical Models : Principles and Techniques
Daphne Koller, Nir Friedman
歡迎補(bǔ)充。
文中提供的PDF下載鏈接,均來(lái)自于網(wǎng)絡(luò),如有問(wèn)題,請(qǐng)站內(nèi)告知。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
- 上一篇: 机器学习和深度学习学习资料
- 下一篇: 深度学习综述(LeCun、Bengio和