周末送新书 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》
《斯坦福數據挖掘教程(第3版)》上架之后,這是我們第一次整篇文章介紹這本書。
這本書相當受歡迎(前兩個版本累計銷量超過 5 萬冊),尤其是受學校青睞——在此也說聲抱歉,出于出版時間的原因,很多學校依然采用了舊版作為教材;同時也請知悉,新版已上架,正在使用這本書作為教材的學校可以考慮更新了。
實際上,這本書已經在大家面前出過 2 次鏡了,一次是 2020 年圖靈獎公布的次日圖靈君用一篇文章講了講圖靈獎得主之一 Jeffrey Ullman 和這本書「不一樣的」故事;一次是 423 活動那次,這本書在沒有趕上大促優惠的情況下進入了新書暢銷榜單。
除了是一本暢銷多年的世界名校數據挖掘入門經典書,《斯坦福數據挖掘教程(第3版)》之于 Jeffrey Ullman ?和弟子 Anand Rajaraman 還有特別的意義。那就是這本書原本只是作為開源電子版出版的,后來才有了紙質書的誕生,個中原因大家可以在文末鏈接閱讀相關文章。
好了,回到這本書,我們繼續說說它的緣起。本書源于Ullman 及弟子? Rajaraman 在斯坦福大學教授多年的一門季度課程——「多年」真的不是隨便叫叫的,我去這本書的網站上看了看,斯坦福大學開設這門課程,最早可以追溯到 2000 年,著實佩服。
課程名為“Web 挖掘”(編號 CS345A),原本是為高年級研究生設計的,沒成想高年級本科生也非常感興趣,于是現在就成為本科生和研究生兼修的一門課程。Jure Leskovec 到斯坦福大學任職后,共同對相關材料進行了重新組織。他開設了一門有關網絡分析的新課程 CS224W, 并為 CS345A 增加了一些內容,重新編號為 CS246。三位作者還開設了一門大規模數據挖掘的項目課程 CS341。目前本書包含了以上三門課程的所有教學內容。
圖書核心特色
這本書核心的特色是:它是一本數據挖掘領域全景路線圖式的入門參考技術書,下面解釋一下關鍵詞。
1.全景路線圖??
一方面可以讓你了解數據挖掘這個大領域下的各個小領域;
另一方面讓你可以縱覽整個數據構建模型的過程,這個過程中你會遇到什么問題,尤其是從普通規模數據到極大規模數據發生了哪些狀況,你的解決方案是如何轉換的。
2.入門?
跟上面一條緊密關聯。普通書入門從簡單操作開始,一步步來,讀者見樹木而不見森林,好書入門從全景圖開始,教讀者抓核心內容,對整個領域了然于胸之后深入自己感興趣的關鍵點。而這本書介紹的正是高手入門之道,書中并沒有每個細分領域的詳細講解,但是為你展示了最新的參考論文和進階資料,方便你進一步探索。
3.技術?
雖然有概念,但并非聚焦于概念,而是教你怎么用,可直接應用于實際的大規模數據挖掘工作——海量 Web 數據是目前大數據挖掘工作的核心,數據分析師、數據科學家、機器學習專家都不可錯過。
接下來讓我們來詳細看看書中的內容。
圖書核心內容
本書是關于數據挖掘的,但是主要關注極大規模數據的挖掘?!皹O大規?!钡囊馑际?#xff0c;這些數據大到無法在內存中存放。因為本書重點強調數據的規模,所以例子大多來自 Web 本身或者 Web 上導出的數據。另外,本書從算法的角度來看待數據挖掘,即數據挖掘是將算法 應用于數據,而不是使用數據來“訓練”某種類型的機器學習引擎。
本書的主要內容包括:
(1) 分布式文件系統和 MapReduce,其中后者用于創建在極大規模數據集上成功應用的并行算法;
(2) 相似性搜索,包括最小哈希和局部敏感哈希的關鍵技術;
(3) 數據流處理以及針對快速到達、須立即處理且易丟失的數據的專用算法;
(4) 搜索引擎技術,包括谷歌的 PageRank、鏈接作弊檢測以及計算網頁導航度(hub)和權威度(authority)的 HITS 方法;
(5) 頻繁項集挖掘,包括關聯規則、購物籃分析、A-Priori 算法及其改進;
(6) 極大規模高維數據集的聚類算法;
(7) Web 應用中的兩個關鍵問題——廣告管理和推薦系統;
(8) 對極大規模的圖(特別是社會網絡圖)的結構進行分析和挖掘的算法;
(9) 通過降維來獲得大規模數據集的重要性質的技術,包括 SVD 和隱性語義索引;
(10) 可以應用于極大規模數據的機器學習算法,包括感知機、支持向量機、梯度下降法、決策樹和神經網絡;
(11) 神經網絡與深度學習,包括最重要的幾個特例——卷積神經網絡(CNN)、循環神經網絡(RNN)和長短期記憶網絡(LSTM)。
用思維導圖展示一下圖書的內容。
(放大可查看大圖)
作譯者團隊
這本《斯坦福數據挖掘教程》與《數據挖掘導論(完整版)》同為國內讀者最喜愛的數據挖掘入門書之一。作者團超級強大,第一作者是 AI 領域無人不知的 Jure Leskovec,他在圖神經網絡方面的研究用“頂尖”形容不為過。第三作者 Jeffrey Ullman 為 2020 年圖靈獎得主,因在編程語言實現領域對基礎算法和理論的貢獻而獲獎。
在翻譯上,由國內知名? NLP 專家王斌老師擔綱翻譯,王斌老師獨自翻譯了前兩個版本。到第 3 版,曾就讀于斯坦福大學 Jure 實驗室的王達侃老師加入,共同翻譯。
Jure Leskovec(尤雷·萊斯科夫)
近年來最優秀的 AI 科學家之一(其實沒有“之一”這兩個字,估計 99% 人也不會反對,從這里你就知道 Jure 的實力了,有其他很多媒體專門寫過??Jure?有多強大,回頭我們轉載一篇文章來看看)。
Pinterest 公司首席科學家,斯坦福大學計算機科學系副教授,研究方向為大型社交和信息網絡的數據挖掘。
他的研究成果獲得了很多獎項,如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship,還獲得了很多最佳論文獎,同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》及 NBC、CBC 等流行的社會媒體刊載。
他還創建了斯坦福網絡分析平臺(SNAP)。
Anand Rajaraman(阿南德·拉賈拉曼)
數據庫和 Web 技術領域領軍者,硅谷連續創業者和風險投資人,斯坦福大學計算機科學系助理教授。
自 1996 年起創立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團收購,而他本人歷任亞馬遜技術總監、沃爾瑪負責全球電子商務業務的副總裁。之后創立了風投公司 Milliways Ventures 和 Rocketship VC,投資過 Facebook、Lyft 等眾多公司。
作為學者,他主要研究數據庫系統、Web 和社交媒體,他的研究論文在學術會議上獲得了多個獎項,他在 2012 年被《快公司》雜志列入“商界最具創造力 100 人”。
Jeffrey Ullman(杰弗里·厄爾曼)
計算機科學家,美國國家工程院院士,2020 年圖靈獎得主。
早年在貝爾實驗室工作,之后任教于普林斯頓大學,十年后加入斯坦福大學直至退休,一生的科研、著書和育人成果卓著。
他是 ACM 會員,曾獲 SIGMOD 創新獎、高德納獎、馮諾依曼獎等多項科研大獎;合著有“龍書”《編譯原理》、數據庫名著《數據庫系統實現》等多部經典著作。
Ullman 培養了很多了不起的學生,其中包括谷歌聯合創始人 Sergey Brin,本書第二作者也是他的得意弟子。目前擔任 Gradiance 公司 CEO。
王斌博士
小米 AI 實驗室主任,NLP 首席科學家。中國中文信息學會理事,《中文信息學報》編委。
加入小米公司之前,是中科院研究員、博導及中科院大學教授。譯有《信息檢索導論》《大數據:互聯網大規模數據挖掘與分布式處理》和《機器學習實戰》等書。
王達侃
優刻得 AI 部門負責人,曾任 WeWork Research & Applied Science ?中國區負責人,并曾在 LinkedIn、Twitter 和微軟亞洲研究院負責 AI 以及大數據方向的研發工作。
碩士畢業于斯坦福大學計算機系,本科畢業于上海交通大學 ACM 班。
國內外讀者好評
| Amazon 讀者
斯坦福大學“海量數據挖掘”公開課課參考書
我買這本書是為了參加斯坦福大學 MMDS 的在線課程,但后來決定全面閱讀這本書(課程不包括一些高級主題)。這本書的內容是非常容易理解的。例如,在第 5 章中,作者介紹了 PageRank 算法,不同于一般書通過概率和線性代數(馬爾科夫鏈和特征向量)來介紹它,他們稍微介紹了一下理論,之后提供了許多例子,所以這本書的實用性深得我心。概率論和線性代數方面的知識會有幫助,但不強求,不過知道一些非常基本的概念,如矩陣乘法等是必需的。
這本書涵蓋的主題相當廣泛,從 MapReduce 和位置敏感哈希(LSH),再到圖和大規模機器學習算法。朋友們,值得擁有。
數據挖掘就看這本書(某大學教授)
這本書是我在數據挖掘方法方面的首選參考書。名聲在外的作者團隊們對于自己的寫作主題門兒清。這些材料來自于作者所教授的幾門斯坦福大學計算機科學課程。就第 3 版而言,寫作清晰、簡潔,無重大錯誤。
本書涵蓋了許多最常用的數據挖掘方法的理論和實踐方面。作者不僅討論了這些算法如何工作的理論,還對其局限性和常見的失敗進行了深入探討。
我把這本書作為我教授的課程的補充教材。該書的處理水平適合高級本科生和初級研究生。
| 豆瓣讀者
真正講大數據處理思路的書
最好的數據挖掘圖書之一?
回到圖書
作者:Jure Leskovec,Anand Rajaraman,Jeffrey Ullman
譯者:王斌 , 王達侃
| 圖書特色
當今 AI 領域最知名的學者之一Jure Leskovec、2020 年圖靈獎得主 Jeffrey Ullman 及弟子作品
國內知名 NLP 專家王斌、AI 青年學者王達侃執筆翻譯
“數據挖掘全景式入門參考書”,源自斯坦福大學公開課“CS246:海量數據挖掘”“CS224W:圖機器學習”和“CS341:項目實戰課”
配套資源豐富,包括開源英文原書 PDF、PPT、視頻講解
本書源自斯坦福大學公開課“CS246:海量數據挖掘”“CS224W:圖機器學習”和“CS341:項目實戰課”,主要關注極大規模數據的挖掘。書中包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統、社會網絡圖挖掘和大規模機器學習等主要內容。第3版新增了決策樹、神經網絡和深度學習等內容。幾乎每節都有對應的習題,以此來鞏固所講解的內容。讀者還可以從網上獲取相關拓展資料。
數據挖掘是數據時代的一項必殺技
這本書可以帶你入門
贈?書?福?利
你的工作跟數據有關嗎?大部分工作時間耗費在了什么地方?
你是否學習過數據挖掘,有什么難點?
評論區挑選 3 位用戶, 每人送出《斯坦福數據挖掘教程(第3版)》1 本。
活動截止時間:2021 年 6 月 1 日 22:00 。
總結
以上是生活随笔為你收集整理的周末送新书 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 管道队列_Python多处
- 下一篇: x3100服务器设置linux启动,ub