介绍几本专业的书籍,一起学习
這里的書涉及到信息檢索,自然語言處理,機(jī)器學(xué)習(xí),模式識(shí)別,數(shù)據(jù)挖掘的方方面面,每一本書都是值得讀者深入的閱讀,研究和討論的。因此,我只能就我個(gè)人的理解對(duì)幾本相對(duì)熟悉的或者讀者的評(píng)價(jià)很高的書做一些簡單的介紹,一來拋磚引玉,希望大牛來多給些指正,二來也為他人的學(xué)習(xí)提供一些經(jīng)驗(yàn)。
這里是river同學(xué)的介紹,有什么問題可以直接與他溝通聯(lián)系,他的信箱是hechuanbupt@gmail.com:
Natural Language Processing
Foundations of Statistical Natural Language Processing:這是研究自然語言處理必備的書之一,是Stanford的Manning和斯圖加特的Schutze教授二人的嘔心瀝血之作,本書的英文版是1999年的,中文已經(jīng)出了第二版了,是清華的苑春法老師翻譯的。從內(nèi)容上來說,本書涵蓋了統(tǒng)計(jì)自然語言處理的大部分,包括基礎(chǔ)知識(shí)、詞法、句法和應(yīng)用四大部分,形式上的層次感很強(qiáng)。無論是各種子任務(wù)還是模型方法,本書都有深入探討。我第一本看的NLP的教材就是這本,直到現(xiàn)在,很多觀點(diǎn)都深深受其影響。這里特別需要提到的是Manning,這是一位表達(dá)力很強(qiáng)的學(xué)者,他的另一本關(guān)于信息檢索的書也是深受讀者的歡迎。
Speech and Language Processing: an introduction to natural language processing, computational linguistics, and speech recognition:這是講解自然語言處理最為詳細(xì)的書,到現(xiàn)在為止英文已經(jīng)到2th edition了,中文只是翻譯到第一版,兩版之間的差別還不小,中文的譯名是《自然語言處理綜論》。由于這本書和上一本的中文譯本都是紫色封皮的,所以這兩本書被合稱為“兩本紫寶書”。因?yàn)槭蔷C論,該書既有統(tǒng)計(jì)的基本模型,也詳細(xì)介紹了傳統(tǒng)的確定性方法,既討論了自然語言分析的各個(gè)子任務(wù),也介紹了speech的相關(guān)內(nèi)容(這個(gè)基本不懂),在這些方面上,它的工作要比前一本更加系統(tǒng)更加廣泛;因此,這本書是更適合作為教材的(其實(shí)我們當(dāng)時(shí)的教材就是這本,但是由于太厚了一直沒敢讀下去)。另外,這本書的第二版對(duì)ME和MEMM的討論也體現(xiàn)了時(shí)代性。
Machine learning
Pattern Recognition and Machine Learning: 這是機(jī)器學(xué)習(xí)領(lǐng)域最為流行的最為推崇的一本書,也是Chris. Bishop的得力之作。我認(rèn)為這本書之所以成功除了作者本身的表達(dá)豐富和理解深刻之外,還有幾個(gè)原因:1. 內(nèi)容深刻而且組織新穎,例如本書是從核方法入手去講解SVM,從而一帶介紹了Gaussion Process; 2. 概率圖模型是本書花了很多筆墨的一部分,作者認(rèn)為對(duì)于Statistical Inference, 圖模型正好提供了一種極好的描述應(yīng)用框架;3. 包羅萬象,我基本能夠想到的所有的ML的模型在這里都有深刻的描述和介紹,包括基本的線性方法(線性分類器,線性回歸)和非線性方法(神經(jīng)網(wǎng)絡(luò),核方法),以及K-means, EM, PCA, HMM, boosting等等方法; 4. 另外一個(gè)值得稱贊的地方是該書提供了大量各種難度的習(xí)題,同時(shí)也可以下載到相應(yīng)的答案,這對(duì)于自學(xué)的同學(xué)來說是非常有益的。我想在我說了這么多的優(yōu)點(diǎn)之后,沒有人會(huì)去懷疑它的經(jīng)典,但是內(nèi)容深刻而豐富必然使得書本的達(dá)到近800頁,這也直接對(duì)閱讀者造成了心里上的陰影,所以,經(jīng)典只是經(jīng)典,要想真正獲得經(jīng)典,只有決心和毅力了。
Machine Learning (Tom M. Mitchell): 這是本97年就出版了的書,在介紹早期之前的工作,這本書還是非常不錯(cuò)的。然而,ML在近年的發(fā)展實(shí)在是太快,所以,它還是看起來略顯陳舊,沒能跟上時(shí)代的步伐。我看的是中文的譯文版,覺得翻譯上還是有所欠缺的,但是的確也理解了一些基本的算法包括KNN和決策樹(到研究文本特征選擇的時(shí)候它的思想也幫助了理解);最近的reforcement learning在會(huì)議上又好好火了一把,可惜當(dāng)年沒有好好學(xué)習(xí),現(xiàn)在就連翻翻文章的勇氣都沒有了。另外,作者又在寫第二版,有g(shù)enerative vs. discriminative model的一部分,講的深入淺出,但是只有這一章,估計(jì)是作者太忙了,還是希望他能夠早點(diǎn)完成巨作。
Pattern Classification: 這是Duda和Hart二人的合力之作,在MLPR出版之前,它一直統(tǒng)治著這個(gè)領(lǐng)域,當(dāng)然我指的是第二版。我只是認(rèn)真閱讀了這本書的PCA和LDA部分,它給我的印象是排版和翻譯很棒,可以說是制作精良吧,完全沒有一點(diǎn)生硬之感,但是內(nèi)容組織上似乎有點(diǎn)亂(這點(diǎn)也許是我沒有通讀的原因)。既然是曾經(jīng)的霸主,肯定有其不一般的地方,有興趣的同學(xué)可以把這本書和MLPR對(duì)比著學(xué)習(xí)。
Information Retrieval:
Modern Information Retrieval: 這本書是IR領(lǐng)域引用率最高的一本書,近年SIGIR的大多數(shù)文章都會(huì)提到的,原因很簡單,在這個(gè)領(lǐng)域?qū)嵱没虡I(yè)化之前兩位偉大的作者就已經(jīng)預(yù)見到了IR在互聯(lián)網(wǎng)的繁榮,于是成書。
An Introduction to Information Retrieval: 這是Chris. Mannning在2007年的新作,有兩個(gè)特點(diǎn):1. 新,因?yàn)槌蓵臅r(shí)間離現(xiàn)在很近,所以內(nèi)容大都比較新。2. 簡單,非常容易讀懂,對(duì)于初學(xué)者,大概一個(gè)月的時(shí)間就可以通讀這本書,而且其中的概念也不難理解。該書的主線是按照檢索模型的發(fā)展順序來組織的。從boolean model到 VSM,再到langauge model。當(dāng)然其中也涉及到了當(dāng)前的主要的研究熱點(diǎn),例如machine learning中的clustering, web search中的link analysis等等。
Matrix:
矩陣論,或者說是線性代數(shù):它是ML,PR等的數(shù)學(xué)基礎(chǔ)之一。它可以提供一些簡介的數(shù)學(xué)表示,可以說上層教材的所有變量表達(dá)和變換都離不開向量和矩陣;矩陣?yán)碚撘矠樯蠈討?yīng)用的線性方法和思想提供了有利的理論基礎(chǔ)。我使用的與矩陣相關(guān)的參考書主要有:
Matrix Analysis: 這本書是備受推崇的矩陣論教材,據(jù)說講的非常透徹。
Matrix Computation: 這是矩陣論和科學(xué)計(jì)算結(jié)合的經(jīng)典之作,它對(duì)矩陣論的各種算法都提供了計(jì)算機(jī)實(shí)現(xiàn)的解決方案以及復(fù)雜度分析。
Matrix Cookbook: 這是網(wǎng)上流傳很廣的一個(gè)小冊(cè)子,沒有原理的講解,沒有定理的證明,只有公式的羅列,可以作為手冊(cè)來查。
Optimization:
優(yōu)化在ML, PR領(lǐng)域都是不可或缺的,SVM的求解就是二次規(guī)劃問題,EM的求解也是把約束優(yōu)化問題轉(zhuǎn)化為了無約束優(yōu)化問題最后再使用最優(yōu)化的一般方法解決的。在這方面的中文教材已經(jīng)做得很優(yōu)秀,只在這里簡單介紹兩本(也不一定是最好的)
Convex Optimization: Boyd和Vandenberghe的作品,2004年出版,內(nèi)容較新。書中的內(nèi)容分為理論,應(yīng)用和算法三個(gè)部分,適合不同需求的人閱讀。另外,兩位作者有篇半定規(guī)劃的論文也很有影響。
Practical Optimization: Algorithms and Engineering Applications: 這是華人教授陸吾生老師的作品,他本人是數(shù)學(xué)系科班出生,但是現(xiàn)在在電子系做教授,所以從理論到應(yīng)用都很精通,而且很了解電子系計(jì)算機(jī)系的學(xué)生在這方面的優(yōu)劣勢,這本書就是在他多年的經(jīng)驗(yàn)中沉淀出來的,這也正是我們所需要的。另外,去年陸老師在華東師范有個(gè)系列講座,網(wǎng)上有視頻可以下載,強(qiáng)烈推薦。
Statistics:
這是個(gè)最容易造成學(xué)習(xí)障礙的數(shù)學(xué)領(lǐng)域,上層領(lǐng)域中的論文鋪天蓋地的都是parameter estimation, inference,對(duì)于有著“不求甚解”的習(xí)慣的初學(xué)者,這些基本概念無形之中成為了攔路虎。然而,統(tǒng)計(jì)學(xué)發(fā)展到現(xiàn)在也可以算是相對(duì)成熟了,學(xué)科本身提供了大量的參考資料:
Statistical Inference: Casella and Berger的作品,現(xiàn)在已經(jīng)出到第二版了,國內(nèi)有影印版的,這里對(duì)統(tǒng)計(jì)學(xué)的一些基本概念做了詳細(xì)的解釋,不涉及太多概率的知識(shí),至于測度只是一帶而過;它的重點(diǎn)在于幫助理解統(tǒng)計(jì)學(xué)的思想體系,其中概念之間的聯(lián)系甚為緊密;書中有大量的例子,這為感性的學(xué)習(xí)者提供了不少幫助。在書的后面幾章,一些回歸分析的模型也有討論。總而言之,這本書是一本相對(duì)淺顯的統(tǒng)計(jì)系的教材。
All of Statistics: 作者Wasserman,它是源自CMU的統(tǒng)計(jì)學(xué)書籍,成書的原因很簡單——就是為廣大奮戰(zhàn)在計(jì)算機(jī)研究前線的人們提供統(tǒng)計(jì)學(xué)上的支持。一方面,它試圖包羅統(tǒng)計(jì)學(xué)的各個(gè)方面(all of statistics),從基本概念到方法模型都有提到,另一方面,它卻是個(gè)精簡的版本(A Concise Course in Statistical Inference),很多子問題都沒有詳細(xì)展開的討論。這本書的最大亮點(diǎn)是計(jì)算機(jī)的氣氛很重,從正文之前對(duì)比machine learning和statistics的術(shù)語的表格就可見一斑,讀這本書就好像在讀cs的論文,而不是統(tǒng)計(jì)的專注。所以,不管它是否透徹是否準(zhǔn)確是否完備,對(duì)我們來說,它實(shí)在是難得的珍寶。
Algorithms:
這個(gè)對(duì)CS同學(xué)們最為熟悉的領(lǐng)域也是最精致最優(yōu)雅的。相對(duì)與上面的Optimization,現(xiàn)在討論的這個(gè)也是為求解問題的optimal solution, 其區(qū)別在于剛剛提到的Optimization是numerical optimization,而這里提到的則是combinatorial optimization。
The Art of Programming:Knuth爺爺?shù)倪@套算法書毋庸置疑是整個(gè)算法界的瑰寶,介紹他和這套書的評(píng)語網(wǎng)上很多,我也沒看過就更沒資格指點(diǎn)了。有意思的是,這本書的表示符號(hào)很奇異,估計(jì)是幾十年前的算法表示符號(hào)沒有統(tǒng)一,或者是大牛的精髓在于方法和思想而不是表達(dá),也有可能是他想找個(gè)機(jī)會(huì)秀一下他的Tex:)
An Introduction to Algorithms: 是三個(gè)作者的聯(lián)合力作,現(xiàn)在應(yīng)該在第二版了,這本書應(yīng)該也是國內(nèi)最風(fēng)靡的算法書了。雖然標(biāo)題是introduction,但是實(shí)際上一點(diǎn)都不淺顯,要花大量的時(shí)間來理解其中的思想和方法。也許是出于學(xué)術(shù)著作的完整性,書中包含了大量的證明,這對(duì)于初學(xué)者來說無疑是不太適應(yīng)的,但是從另一角度來看,它卻能夠滿足各種層次各種水平的讀者的需要,適合beginner,適合mathematician,適合coder.不管怎么樣,它的很多概念和思想都已經(jīng)成為公認(rèn)的經(jīng)典了,比如動(dòng)態(tài)規(guī)劃的overlapping sub-problems and optimal sub-structure.
Algorithm in C: 這是我精讀過的算法書,直觀感覺是容易理解,圖示很多,尤其是在講解棧和遞歸的時(shí)候;代碼優(yōu)雅,它的快排比introduction中的要漂亮得多,樹的非遞歸的先序遍歷也比清華的數(shù)據(jù)結(jié)構(gòu)中所提到的要清晰明白;更可貴的是這書提供了C語言的源代碼(不知道為什么對(duì)C有天然的好感),而不是一般算法書中的偽代碼(有些偽代碼很難理解,而且有些不一樣的約定比如數(shù)組下標(biāo)從1開始等等)。可惜這本書只是出版了兩本,作者原來打算要寫的估計(jì)現(xiàn)在都不寫了(就連這個(gè)習(xí)慣都從他的老師那兒學(xué)過來了)。
轉(zhuǎn)載自:My Study
總結(jié)
以上是生活随笔為你收集整理的介绍几本专业的书籍,一起学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LaTeX生成word的DOCX格式 l
- 下一篇: 【Python】垃圾分类,调用阿里云AP