机器学习经典书籍小结
機器學(xué)習(xí)經(jīng)典書籍小結(jié)
轉(zhuǎn)載本博客請注明鏈接:http://blog.csdn.net/xinzhangyanxiang/article/details/9069045
博客第一篇文章[1]是轉(zhuǎn)載的,也算是開始寫博客不經(jīng)意的表露了自己對機器學(xué)習(xí)的興趣吧!那篇文章總結(jié)了機器學(xué)習(xí)的一些經(jīng)典算法的論文與數(shù)學(xué)基礎(chǔ)理論的一些書籍,對于開始學(xué)習(xí)機器學(xué)習(xí)的話恐怕太過深入,正好最近在買書,看了很多經(jīng)典書籍的總結(jié)與評論,我再拾人牙慧,稍稍總結(jié)一下吧。
先說一下我看過的和正在看的一些書吧!
《數(shù)學(xué)之美》;作者吳軍大家都很熟悉。這本書主要的作用是引起了我對機器學(xué)習(xí)和自然語言處理的興趣。里面以極為通俗的語言講述了數(shù)學(xué)在這兩個領(lǐng)域的應(yīng)用。
《Programming Collective Intelligence》(中譯本《集體智慧編程》);作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《數(shù)據(jù)之美:解密優(yōu)雅數(shù)據(jù)解決方案背后的故事》)的作者。這本書最大的優(yōu)勢就是里面沒有理論推導(dǎo)和復(fù)雜的數(shù)學(xué)公式,是很不錯的入門書。目前中文版已經(jīng)脫銷,對于有志于這個領(lǐng)域的人來說,英文的pdf是個不錯的選擇,因為后面有很多經(jīng)典書的翻譯都較差,只能看英文版,不如從這個入手。還有,這本書適合于快速看完,因為據(jù)評論,看完一些經(jīng)典的帶有數(shù)學(xué)推導(dǎo)的書后會發(fā)現(xiàn)這本書什么都沒講,只是舉了很多例子而已。
《Algorithms of the Intelligent Web》(中譯本《智能web算法》);作者Haralambos Marmanis、Dmitry Babenko。這本書中的公式比《集體智慧編程》要略多一點,里面的例子多是互聯(lián)網(wǎng)上的應(yīng)用,看名字就知道。不足的地方在于里面的配套代碼是BeanShell而不是python或其他。總起來說,這本書還是適合初學(xué)者,與上一本一樣需要快速讀完,如果讀完上一本的話,這一本可以不必細(xì)看代碼,了解算法主要思想就行了。
《統(tǒng)計學(xué)習(xí)方法》;作者李航,是國內(nèi)機器學(xué)習(xí)領(lǐng)域的幾個大家之一,曾在MSRA任高級研究員,現(xiàn)在華為諾亞方舟實驗室。書中寫了十個算法,每個算法的介紹都很干脆,直接上公式,是徹頭徹尾的“干貨書”。每章末尾的參考文獻(xiàn)也方便了想深入理解算法的童鞋直接查到經(jīng)典論文;本書可以與上面兩本書互為輔助閱讀。
《Machine Learning》(《機器學(xué)習(xí)》);作者TomMitchell[2]是CMU的大師,有機器學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)課程視頻。這本書是領(lǐng)域內(nèi)翻譯的較好的書籍,講述的算法也比《統(tǒng)計學(xué)習(xí)方法》的范圍要大很多。據(jù)評論這本書主要在于啟發(fā),講述公式為什么成立而不是推導(dǎo);不足的地方在于出版年限較早,時效性不如PRML。但有些基礎(chǔ)的經(jīng)典還是不會過時的,所以這本書現(xiàn)在幾乎是機器學(xué)習(xí)的必讀書目。
《Mining of Massive Datasets》(《大數(shù)據(jù)》);作者Anand Rajaraman[3]、Jeffrey David Ullman,Anand是Stanford的PhD。這本書介紹了很多算法,也介紹了這些算法在數(shù)據(jù)規(guī)模比較大的時候的變形。但是限于篇幅,每種算法都沒有展開講的感覺,如果想深入了解需要查其他的資料,不過這樣的話對算法進(jìn)行了解也足夠了。還有一點不足的地方就是本書原文和翻譯都有許多錯誤,勘誤表比較長,讀者要用心了。
《Data Mining: Practical Machine Learning Tools and Techniques》(《數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)》);作者Ian H. Witten 、Eibe Frank是weka的作者、新西蘭懷卡托大學(xué)教授。他們的《ManagingGigabytes》[4]也是信息檢索方面的經(jīng)典書籍。這本書最大的特點是對weka的使用進(jìn)行了介紹,但是其理論部分太單薄,作為入門書籍還可,但是,經(jīng)典的入門書籍如《集體智慧編程》、《智能web算法》已經(jīng)很經(jīng)典,學(xué)習(xí)的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的算法。
《機器學(xué)習(xí)及其應(yīng)用2011》,周志華、楊強主編。來源于“機器學(xué)習(xí)及其應(yīng)用研討會”的文集。該研討會由復(fù)旦大學(xué)智能信息處理實驗室發(fā)起,目前已舉辦了十屆,國內(nèi)的大牛如李航、項亮、王海峰、劉鐵巖、余凱等都曾在該會議上做過講座。這本書講了很多機器學(xué)習(xí)前沿的具體的應(yīng)用,需要有基礎(chǔ)的才能看懂。如果想了解機器學(xué)習(xí)研究趨勢的可以瀏覽一下這本書。關(guān)注領(lǐng)域內(nèi)的學(xué)術(shù)會議是發(fā)現(xiàn)研究趨勢的方法嘛。
上面大多都是一些入門級的書籍,想要在這個領(lǐng)域深入下去,還需要深入的閱讀一些經(jīng)典書籍。看了很多推薦大牛推薦的書單,這里總結(jié)一下吧。
《Pattern Classification》(《模式分類》第二版);作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作,但對最近呈主導(dǎo)地位的較好的方法SVM、Boosting方法沒有介紹,被評“掛一漏萬之嫌”。
《Pattern Recognition And Machine Learning》;作者Christopher M. Bishop[6];簡稱PRML,側(cè)重于概率模型,是貝葉斯方法的扛鼎之作,據(jù)評“具有強烈的工程氣息,可以配合stanford 大學(xué) Andrew Ng 教授的 Machine Learning 視頻教程一起來學(xué),效果翻倍。”
《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《統(tǒng)計學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測》第二版);作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發(fā)明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴展了Boosting方法的應(yīng)用范圍。這本書對當(dāng)前最為流行的方法有比較全面深入的介紹,對工程人員參考價值也許要更大一點。另一方面,它不僅總結(jié)了已經(jīng)成熟了的一些技術(shù),而且對尚在發(fā)展中的一些議題也有簡明扼要的論述。讓讀者充分體會到機器學(xué)習(xí)是一個仍然非常活躍的研究領(lǐng)域,應(yīng)該會讓學(xué)術(shù)研究人員也有常讀常新的感受。”[7]
《Data Mining:Concepts andTechniques》,(《數(shù)據(jù)挖掘:概念與技術(shù)》第三版);作者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是華裔。本書毫無疑問是數(shù)據(jù)挖掘方面的的經(jīng)典之作,不過翻譯版總是被噴,沒辦法,大部分翻譯過來的書籍都被噴,想要不吃別人嚼過的東西,就好好學(xué)習(xí)英文吧。
?
一些引申鏈接:
http://blog.csdn.net/pongba/article/details/2915005
http://blog.csdn.net/caikehe/article/details/8496721
http://blog.chinaunix.net/uid-10314004-id-3594337.html
http://weibo.com/1657470871/zpZ87mhND?sudaref=www.zhizhihu.com
http://www.zhizhihu.com/html/y2012/4019.html
http://zinkov.com/posts/2012-10-04-ml-book-reviews/
??? 幾乎所有引申鏈接中都提到了上面我所提到的經(jīng)典書籍。另外還有一些其他方面比如信息檢索、人工智能還有數(shù)學(xué)基礎(chǔ)方面的書籍。
有人推薦,學(xué)習(xí)機器學(xué)習(xí)的話可以先讀《統(tǒng)計學(xué)習(xí)方法》和《統(tǒng)計學(xué)習(xí)基礎(chǔ)》打底,這樣就包含了大部分的算法,然后再深入研究某個算法。我覺得,我在上面列出的四本經(jīng)典書籍都應(yīng)該通讀一遍。孔子云“學(xué)而不思則罔,思而不學(xué)則殆”,我認(rèn)為,學(xué)習(xí)、思考、實踐不可缺一,學(xué)習(xí)的同時要加強算法代碼的實現(xiàn)和其他方面比如并行化、使用場景等的思考。
[1]?http://blog.csdn.net/xinzhangyanxiang/article/details/7799997
[2]?http://www.cs.cmu.edu/~tom/
[3]?http://en.wikipedia.org/wiki/Anand_Rajaraman
[4]?http://book.douban.com/subject/1511568/
[5]?http://en.wikipedia.org/wiki/Richard_O._Duda
[6]?http://en.wikipedia.org/wiki/Christopher_Bishop
[7]?http://book.douban.com/subject/3578359/
[8]?http://en.wikipedia.org/wiki/Jiawei_Han
總結(jié)
以上是生活随笔為你收集整理的机器学习经典书籍小结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微博背后的那些算法
- 下一篇: 干货︱机器学习中防止过拟合的处理方法