转载:介绍几本专业的书籍,一起学习
介紹幾本專業的書籍,一起學習
這里的書涉及到信息檢索,自然語言處理,機器學習,模式識別,數據挖掘的方方面面,每一本書都是值得讀者深入的閱讀,研究和討論的。因此,我只能就我個人的理解對幾本相對熟悉的或者讀者的評價很高的書做一些簡單的介紹,一來拋磚引玉,希望大牛來多給些指正,二來也為他人的學習提供一些經驗。
這里是river同學的介紹,有什么問題可以直接與他溝通聯系,他的信箱是hechuanbupt@gmail.com:Natural Language Processing
Foundations of Statistical Natural Language Processing:這是研究自然語言處理必備的書之一,是Stanford的Manning和斯圖加特的Schutze教授二人的嘔心瀝血之作,本書的英文版是1999年的,中文已經出了第二版了,是清華的苑春法老師翻譯的。從內容上來說,本書涵蓋了統計自然語言處理的大部分,包括基礎知識、詞法、句法和應用四大部分,形式上的層次感很強。無論是各種子任務還是模型方法,本書都有深入探討。我第一本看的NLP的教材就是這本,直到現在,很多觀點都深深受其影響。這里特別需要提到的是Manning,這是一位表達力很強的學者,他的另一本關于信息檢索的書也是深受讀者的歡迎。
Speech and Language Processing: an introduction to natural language processing, computational linguistics, and speech recognition:這是講解自然語言處理最為詳細的書,到現在為止英文已經到2th edition了,中文只是翻譯到第一版,兩版之間的差別還不小,中文的譯名是《自然語言處理綜論》。由于這本書和上一本的中文譯本都是紫色封皮的,所以這兩本書被合稱為“兩本紫寶書”。因為是綜論,該書既有統計的基本模型,也詳細介紹了傳統的確定性方法,既討論了自然語言分析的各個子任務,也介紹了speech的相關內容(這個基本不懂),在這些方面上,它的工作要比前一本更加系統更加廣泛;因此,這本書是更適合作為教材的(其實我們當時的教材就是這本,但是由于太厚了一直沒敢讀下去)。另外,這本書的第二版對ME和MEMM的討論也體現了時代性。
?
Machine learning
Pattern Recognition and Machine Learning: 這是機器學習領域最為流行的最為推崇的一本書,也是Chris. Bishop的得力之作。我認為這本書之所以成功除了作者本身的表達豐富和理解深刻之外,還有幾個原因:1. 內容深刻而且組織新穎,例如本書是從核方法入手去講解SVM,從而一帶介紹了Gaussion Process; 2. 概率圖模型是本書花了很多筆墨的一部分,作者認為對于Statistical Inference, 圖模型正好提供了一種極好的描述應用框架;3. 包羅萬象,我基本能夠想到的所有的ML的模型在這里都有深刻的描述和介紹,包括基本的線性方法(線性分類器,線性回歸)和非線性方法(神經網絡,核方法),以及K-means, EM, PCA, HMM, boosting等等方法; 4. 另外一個值得稱贊的地方是該書提供了大量各種難度的習題,同時也可以下載到相應的答案,這對于自學的同學來說是非常有益的。我想在我說了這么多的優點之后,沒有人會去懷疑它的經典,但是內容深刻而豐富必然使得書本的達到近800頁,這也直接對閱讀者造成了心里上的陰影,所以,經典只是經典,要想真正獲得經典,只有決心和毅力了。
Machine Learning (Tom M. Mitchell): 這是本97年就出版了的書,在介紹早期之前的工作,這本書還是非常不錯的。然而,ML在近年的發展實在是太快,所以,它還是看起來略顯陳舊,沒能跟上時代的步伐。我看的是中文的譯文版,覺得翻譯上還是有所欠缺的,但是的確也理解了一些基本的算法包括KNN和決策樹(到研究文本特征選擇的時候它的思想也幫助了理解);最近的reforcement learning在會議上又好好火了一把,可惜當年沒有好好學習,現在就連翻翻文章的勇氣都沒有了。另外,作者又在寫第二版,有generative vs. discriminative model的一部分,講的深入淺出,但是只有這一章,估計是作者太忙了,還是希望他能夠早點完成巨作。
Pattern Classification: 這是Duda和Hart二人的合力之作,在MLPR出版之前,它一直統治著這個領域,當然我指的是第二版。我只是認真閱讀了這本書的PCA和LDA部分,它給我的印象是排版和翻譯很棒,可以說是制作精良吧,完全沒有一點生硬之感,但是內容組織上似乎有點亂(這點也許是我沒有通讀的原因)。既然是曾經的霸主,肯定有其不一般的地方,有興趣的同學可以把這本書和MLPR對比著學習。
?
Information Retrieval:
Modern Information Retrieval: 這本書是IR領域引用率最高的一本書,近年SIGIR的大多數文章都會提到的,原因很簡單,在這個領域實用化商業化之前兩位偉大的作者就已經預見到了IR在互聯網的繁榮,于是成書。
An Introduction to Information Retrieval: 這是Chris. Mannning在2007年的新作,有兩個特點:1. 新,因為成書的時間離現在很近,所以內容大都比較新。2. 簡單,非常容易讀懂,對于初學者,大概一個月的時間就可以通讀這本書,而且其中的概念也不難理解。該書的主線是按照檢索模型的發展順序來組織的。從boolean model到 VSM,再到langauge model。當然其中也涉及到了當前的主要的研究熱點,例如machine learning中的clustering, web search中的link analysis等等。
Matrix:
矩陣論,或者說是線性代數:它是ML,PR等的數學基礎之一。它可以提供一些簡介的數學表示,可以說上層教材的所有變量表達和變換都離不開向量和矩陣;矩陣理論也為上層應用的線性方法和思想提供了有利的理論基礎。我使用的與矩陣相關的參考書主要有:
Matrix Analysis:? 這本書是備受推崇的矩陣論教材,據說講的非常透徹。
Matrix Computation: 這是矩陣論和科學計算結合的經典之作,它對矩陣論的各種算法都提供了計算機實現的解決方案以及復雜度分析。
Matrix Cookbook: 這是網上流傳很廣的一個小冊子,沒有原理的講解,沒有定理的證明,只有公式的羅列,可以作為手冊來查。
Optimization:
優化在ML, PR領域都是不可或缺的,SVM的求解就是二次規劃問題,EM的求解也是把約束優化問題轉化為了無約束優化問題最后再使用最優化的一般方法解決的。在這方面的中文教材已經做得很優秀,只在這里簡單介紹兩本(也不一定是最好的)
Convex Optimization: Boyd
Practical Optimization: Algorithms and Engineering Applications: 這是華人教授陸吾生老師的作品,他本人是數學系科班出生,但是現在在電子系做教授,所以從理論到應用都很精通,而且很了解電子系計算機系的學生在這方面的優劣勢,這本書就是在他多年的經驗中沉淀出來的,這也正是我們所需要的。另外,去年陸老師在華東師范有個系列講座,網上有視頻可以下載,強烈推薦。
Statistics:
這是個最容易造成學習障礙的數學領域,上層領域中的論文鋪天蓋地的都是parameter estimation, inference,對于有著“不求甚解”的習慣的初學者,這些基本概念無形之中成為了攔路虎。然而,統計學發展到現在也可以算是相對成熟了,學科本身提供了大量的參考資料:
Statistical Inference: Casella and Berger的作品,現在已經出到第二版了,國內有影印版的,這里對統計學的一些基本概念做了詳細的解釋,不涉及太多概率的知識,至于測度只是一帶而過;它的重點在于幫助理解統計學的思想體系,其中概念之間的聯系甚為緊密;書中有大量的例子,這為感性的學習者提供了不少幫助。在書的后面幾章,一些回歸分析的模型也有討論。總而言之,這本書是一本相對淺顯的統計系的教材。
All of Statistics: 作者Wasserman,它是源自CMU的統計學書籍,成書的原因很簡單——就是為廣大奮戰在計算機研究前線的人們提供統計學上的支持。一方面,它試圖包羅統計學的各個方面(all of statistics),從基本概念到方法模型都有提到,另一方面,它卻是個精簡的版本(A Concise Course in Statistical Inference),很多子問題都沒有詳細展開的討論。這本書的最大亮點是計算機的氣氛很重,從正文之前對比machine learning和statistics的術語的表格就可見一斑,讀這本書就好像在讀cs的論文,而不是統計的專注。所以,不管它是否透徹是否準確是否完備,對我們來說,它實在是難得的珍寶。
Algorithms:
這個對CS同學們最為熟悉的領域也是最精致最優雅的。相對與上面的Optimization,現在討論的這個也是為求解問題的optimal solution, 其區別在于剛剛提到的Optimization是numerical optimization,而這里提到的則是combinatorial optimization。
The Art of Programming:Knuth爺爺的這套算法書毋庸置疑是整個算法界的瑰寶,介紹他和這套書的評語網上很多,我也沒看過就更沒資格指點了。有意思的是,這本書的表示符號很奇異,估計是幾十年前的算法表示符號沒有統一,或者是大牛的精髓在于方法和思想而不是表達,也有可能是他想找個機會秀一下他的Tex:)
An Introduction to Algorithms: 是三個作者的聯合力作,現在應該在第二版了,這本書應該也是國內最風靡的算法書了。雖然標題是introduction,但是實際上一點都不淺顯,要花大量的時間來理解其中的思想和方法。也許是出于學術著作的完整性,書中包含了大量的證明,這對于初學者來說無疑是不太適應的,但是從另一角度來看,它卻能夠滿足各種層次各種水平的讀者的需要,適合beginner,適合mathematician,適合coder.不管怎么樣,它的很多概念和思想都已經成為公認的經典了,比如動態規劃的overlapping sub-problems and optimal sub-structure.
Algorithm in C: 這是我精讀過的算法書,直觀感覺是容易理解,圖示很多,尤其是在講解棧和遞歸的時候;代碼優雅,它的快排比introduction中的要漂亮得多,樹的非遞歸的先序遍歷也比清華的數據結構中所提到的要清晰明白;更可貴的是這書提供了C語言的源代碼(不知道為什么對C有天然的好感),而不是一般算法書中的偽代碼(有些偽代碼很難理解,而且有些不一樣的約定比如數組下標從1開始等等)。可惜這本書只是出版了兩本,作者原來打算要寫的估計現在都不寫了(就連這個習慣都從他的老師那兒學過來了)。
轉自:http://my.huhoo.net/archives/2008/11/post_27.html
總結
以上是生活随笔為你收集整理的转载:介绍几本专业的书籍,一起学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转:国外科技论文写作资源
- 下一篇: 数学之美 系列 12 - 余弦定理和新闻