大牛书单 | 大数据存储方向好书分享
導(dǎo)語:讀書是一生的功課,技術(shù)人通過讀書實(shí)現(xiàn)自我提升,學(xué)習(xí)優(yōu)秀知識(shí)沉淀。TEG書知道本期特邀騰訊云數(shù)倉數(shù)據(jù)湖產(chǎn)品負(fù)責(zé)人堵俊平、騰訊云數(shù)據(jù)庫負(fù)責(zé)人林曉斌、騰訊TEG云架構(gòu)平臺(tái)部數(shù)據(jù)塊中心高級(jí)工程師王銀虎,騰訊TEG計(jì)費(fèi)平臺(tái)部賬戶中心專家工程師潘安群為大家?guī)泶髷?shù)據(jù)方向好書推薦。來看看技術(shù)大牛在讀什么,收藏優(yōu)質(zhì)內(nèi)容,愿本期書單助您更專業(yè)。
堵俊平,騰訊云數(shù)倉數(shù)據(jù)湖產(chǎn)品負(fù)責(zé)人,?T4專家工程師,騰訊開源聯(lián)盟(TOSA)現(xiàn)任主席,Apache開源基金會(huì)Member,?Apache?Hadoop項(xiàng)目Committer和PMC。
《Hadoop:?The?Definitive?Guide:?Storage?and?Analysis?at?Internet?Scale》
作者:Tom White
大牛推薦語: 這本”Hadoop?Definitive?Guide”是由Hadoop之父Doug?Cutting親自推薦的,作者Tom?White也是Hadoop開源項(xiàng)目最早期的開發(fā)者。本書深入淺出的討論了大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)里各種技術(shù)Hadoop,?HBase,?Hive,?Spark等的基本原理,設(shè)計(jì)原則和使用細(xì)節(jié)。不僅對(duì)大數(shù)據(jù)領(lǐng)域的業(yè)者,也對(duì)于從事分布式系統(tǒng),存儲(chǔ)系統(tǒng)等研發(fā)的技術(shù)人員也有很強(qiáng)的參考價(jià)值。這本書指導(dǎo)了一代大數(shù)據(jù)開發(fā)者的成長,也被早期的Hadoop業(yè)者稱為大數(shù)據(jù)領(lǐng)域的紅寶書。
《Learning?Spark:?Lightning-Fast?Big?Data?Analysis》
作者:Holden Karau,?Andy Kowinski,?Mark Hamstra,?Matei Zaharia
大牛推薦語:這本“Learning?Spark”是由Apache?Spark項(xiàng)目的創(chuàng)始團(tuán)隊(duì)寫給數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的關(guān)于如何基于Spark做數(shù)據(jù)分析,全書通過豐富的例子,展現(xiàn)了Spark如何應(yīng)用于數(shù)據(jù)的SQL查詢,流計(jì)算,機(jī)器學(xué)習(xí)等常用的數(shù)據(jù)分析場(chǎng)景以及優(yōu)化。全書實(shí)例豐富,邏輯嚴(yán)謹(jǐn),是數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家采用Spark技術(shù)的必備工具書。
《Data?Architecture:?A?Primer?for?the?Data?Scientist:?Big?Data,?Data?Warehouse?and?Data?Vault》
作者:W.H. Inmon,?Daniel Linstedt?
大牛推薦語:?這本書是被譽(yù)為數(shù)據(jù)倉庫之父的Bill?Inmon撰寫的關(guān)于企業(yè)全局?jǐn)?shù)據(jù)架構(gòu)的書,?該書詳細(xì)分析了大數(shù)據(jù)趨勢(shì),并結(jié)合歷史上已有的數(shù)據(jù)倉庫系統(tǒng)探討了如何在企業(yè)數(shù)據(jù)架構(gòu)上實(shí)現(xiàn)兩者的連接與統(tǒng)一。全書脈絡(luò)清楚,通俗易懂,反映了作者多年的企業(yè)數(shù)據(jù)服務(wù)與治理的經(jīng)驗(yàn)沉淀。適合試圖在架構(gòu)層面上理解企業(yè)數(shù)據(jù)架構(gòu)以及數(shù)據(jù)規(guī)劃的資深從業(yè)人員來閱讀。
林曉斌,網(wǎng)名丁奇,騰訊云數(shù)據(jù)產(chǎn)品中心總監(jiān),云數(shù)據(jù)庫負(fù)責(zé)人。擅長數(shù)據(jù)庫性能優(yōu)化和架構(gòu)優(yōu)化,活躍的社區(qū)開發(fā)者。著有專欄《MySQL實(shí)戰(zhàn)45講》,超過3萬人已學(xué)習(xí)。
《SQL反模式》
作者:Bill Karwin
大牛推薦語:對(duì)于一個(gè)運(yùn)維和開發(fā)人員來說,出了錯(cuò)就改并不太難,而如何識(shí)別潛在的問題就是一個(gè)進(jìn)階的能力。《SQL反模式》這本書,比較系統(tǒng)地介紹了如何識(shí)別潛在風(fēng)險(xiǎn)、歸納錯(cuò)誤的用法、總結(jié)面對(duì)問題時(shí)正確的解決手段,除了解決實(shí)際問題,對(duì)運(yùn)維人員的系統(tǒng)化思維提升也很有幫助。
《事務(wù)處理:概念與技術(shù)》
作者:Jim Gray, Andreas Reuter?
大牛推薦語:這是一本奠定了關(guān)系數(shù)據(jù)庫理論的書,在現(xiàn)在主流的數(shù)據(jù)庫實(shí)現(xiàn)中,還可以看到其中一些概念的原型。這本著作詳細(xì)闡述了各種可能發(fā)生的問題,以及解決這些問題的實(shí)際的技術(shù)。直到今天,書里的理論仍然能夠用于指導(dǎo)現(xiàn)在的數(shù)據(jù)庫設(shè)計(jì)和開發(fā)實(shí)踐。
這是一本”大部頭“,也是值得放在床頭細(xì)讀的書。
王銀虎,TEG云架構(gòu)平臺(tái)部數(shù)據(jù)塊中心云硬盤組T3-3高級(jí)工程師,負(fù)責(zé)云硬盤的開發(fā)和維護(hù)工作,混跡存儲(chǔ)圈10年有余,為騰訊云高性能、低成本、高可用性和持久性的海量存儲(chǔ)平臺(tái)提供技術(shù)支持。
《失控:機(jī)器、社會(huì)與經(jīng)濟(jì)的新生物學(xué)》
作者:Kevin Kelly
大牛推薦語:凱文凱利的這本書,主題是控制論、自我組織、復(fù)雜系統(tǒng)和混沌理論等。《失控》的中心理論是當(dāng)代科學(xué)與哲學(xué)擁有共通之處:智慧不再被集中組織,而是更像蜂巢中的一個(gè)個(gè)蜂窩。此作成書于1994年的書,書中預(yù)言式的提到今天正在興起或大熱的概念包括:?大眾智慧、云計(jì)算、物聯(lián)網(wǎng)、虛擬現(xiàn)實(shí)、敏捷開發(fā)、協(xié)作、雙贏、共生、共同進(jìn)化、網(wǎng)絡(luò)社區(qū)、網(wǎng)絡(luò)經(jīng)濟(jì)等等。對(duì)于計(jì)算機(jī)科學(xué)和工程,有很多指導(dǎo)意義,在CBS的分布式設(shè)計(jì)方面也借鑒了《失控》的很多理論和思想。
《重構(gòu):改善既有代碼的設(shè)計(jì)》
作者:Martin Fowler
大牛推薦語:程序員寫代碼無非是在做兩件事情,實(shí)現(xiàn)新功能,重構(gòu)已有代碼,而《重構(gòu)》正是指導(dǎo)代碼重構(gòu)的一本工具書,它解釋重構(gòu)的原理和最佳實(shí)踐方式,并指出何時(shí)何地你應(yīng)該開始挖掘你的代碼以求改善,它揭示了重構(gòu)過程并整理了具體的方法和案例。同時(shí)《重構(gòu)》有很多理念也是程序員應(yīng)該學(xué)習(xí)的:推倒重來不是重構(gòu),安全、小步的重構(gòu)應(yīng)有的方法;穩(wěn)定的軟件不是設(shè)計(jì)出來的,是演進(jìn)而來的......
潘安群,TEG計(jì)費(fèi)平臺(tái)部賬戶中心專家工程師,超過10年分布式計(jì)算和存儲(chǔ)系統(tǒng)研發(fā)經(jīng)驗(yàn),目前負(fù)責(zé)分布式NoSQL系統(tǒng)厚德(Hold)、騰訊分布式數(shù)據(jù)庫(TDSQL),以及騰訊云區(qū)塊鏈(TBaaS)底層平臺(tái)的技術(shù)研發(fā)工作。
《Designing Data-Intensive Applications》
作者:Martin Kleppmann
大牛推薦語:這是一本數(shù)據(jù)處理領(lǐng)域(SQL、NoSQL、NewSQL、Batch Processing、Stream Processing)的入門之作,也可以說是集大成之作,領(lǐng)域從業(yè)者必讀,深入淺出,可以讓你系統(tǒng)性的了解到各類型數(shù)據(jù)處理系統(tǒng)所需要考慮的問題,如可靠性、擴(kuò)展性、可維護(hù)性、數(shù)據(jù)模型、復(fù)制、一致性、分布式、事務(wù)等等。同時(shí)通過對(duì)各種解決方案的來龍去脈以及優(yōu)劣對(duì)比講述,更能讓大家加深對(duì)問題的理解。因?yàn)楸緯诰唧w細(xì)節(jié)上沒有特別深入,所以無論是否從事數(shù)據(jù)存儲(chǔ)處理系統(tǒng)領(lǐng)域的研發(fā)工作,都可以,也應(yīng)該讀讀此書,對(duì)工作中的技術(shù)選型會(huì)非常有指導(dǎo)意義。此外,該書里面提供的大量引用文獻(xiàn),對(duì)于進(jìn)一步深入細(xì)分領(lǐng)域非常有價(jià)值。
《Streaming Systems》
作者:Tyler Akidau,?Slava Chernyak,?Reuven Lax
大牛推薦語:源自Google內(nèi)部大數(shù)據(jù)處理的思考與經(jīng)驗(yàn),雖然書名是Streaming Systems,但是內(nèi)容遠(yuǎn)不止于此,作者希望用一個(gè)大統(tǒng)一理論來統(tǒng)一去過大數(shù)據(jù)處理的歷程,包括批處理、流式計(jì)算、數(shù)據(jù)庫表等概念,這可以充分加深大家對(duì)大數(shù)據(jù)處理系統(tǒng)的系統(tǒng)性理解。當(dāng)然也有對(duì)當(dāng)前各種Streaming System的對(duì)比分析,值得細(xì)讀。
《技術(shù)的本質(zhì)》
作者:W.Brian Arthur
大牛推薦語:嚴(yán)格意義上來說,這不是一本技術(shù)書籍,作者是經(jīng)濟(jì)學(xué)出身,這里的技術(shù)也不再是某個(gè)行業(yè)的具體技術(shù),而是人類文明史上的技術(shù)總和,作者似乎希望脫離某個(gè)具體領(lǐng)域的技術(shù),去思考技術(shù)的本質(zhì)是什么,如何進(jìn)行進(jìn)化,里面提出很多有意思的觀點(diǎn),如技術(shù)在某種程度上一定是來自此前已有技術(shù)的新組合,而技術(shù)的最源頭是人類對(duì)自然現(xiàn)象的捕獲與利用,技術(shù)的模塊化組合進(jìn)化等,這些觀點(diǎn)不能說一定無懈可擊,但是不失為我們看待技術(shù)以及創(chuàng)新的一種參考。此外,因?yàn)榧夹g(shù)本身是一個(gè)很抽象的概念,所以這本書讀起來會(huì)有些生澀,可能容易睡著。
總結(jié)
以上是生活随笔為你收集整理的大牛书单 | 大数据存储方向好书分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 荣登2019中国“十佳大数据案例”,腾讯
- 下一篇: 腾讯iOA零信任安全——IT变革下的新一