《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假閑得蛋癢,混混沌沌,開始看《Data-Intensive Text Processing with mapReduce》,盡管有諸多單詞不懂,還好六級(jí)考多了,雖然至今未過;再加上自己當(dāng)研究僧有一段時(shí)間了,經(jīng)書尚且能懂;故本書大概內(nèi)容及技術(shù)還是理解的。一種閑散的心態(tài)開始了對(duì)一本技術(shù)型書籍的啃讀。
此外,看到本校論壇上的技術(shù)帖如此冷清,八卦帖依然火爆…..堂堂985+211理工學(xué)校的猛男,悍妹,難道都思春去了;實(shí)在不給力。閑話少說,開帖(尼瑪,最近鍵盤總是在碼字到某個(gè)字符的時(shí)候突然卡死,棄之,轉(zhuǎn)手寫,以后再碼上)。
《Data-Intensive Text Processing with mapReduce》讀書筆記之一:前言
Mapreduce是一種分布式的程序設(shè)計(jì)模式。作者首先提出了“Why”,答案是:大數(shù)據(jù)。那就先來說說數(shù)據(jù)。
數(shù)據(jù)的產(chǎn)生:大數(shù)據(jù)時(shí)代,比如咱們的搜索行為、購物習(xí)慣、看片類型、社交等,就在各巨頭的服務(wù)器上存在,并且爆炸式增長。
數(shù)據(jù)的管理:隨著硬件的發(fā)展,數(shù)據(jù)中心越來越多,有能力存了,但是真正會(huì)用的公司也就那么幾家。
數(shù)據(jù)的分析:即數(shù)據(jù)挖掘,用于商業(yè)智能、統(tǒng)計(jì)學(xué)習(xí)、決策等。也說本人最感興趣的。
例子:詞性標(biāo)志。(前言用了大量自然語言處理(NLP)例子, 推薦一本正在看的書,中科院宗成慶的《統(tǒng)計(jì)自然語言處理》,超新星視頻有他的課程,校園網(wǎng)免費(fèi),可在實(shí)驗(yàn)室高速下載,而后慢慢學(xué)習(xí)研究,當(dāng)然里面還有很多豐富的課程,沒事的時(shí)候,別老泡圖書館,看視頻,學(xué)得更快。天文地理,文學(xué)藝術(shù),我已經(jīng)把感興趣的下得差不多了)
機(jī)器如何對(duì)輸入的語句進(jìn)行斷句(專業(yè)講就是分詞,且標(biāo)出每個(gè)詞的詞性,是名詞,還是其他)。首先要有語料庫,如果可能,就是人類有史以來所以的文字記載,這就是數(shù)據(jù)啊,量夠大吧,根據(jù)統(tǒng)計(jì)獲得各種斷句的概率分布,屬于這樣切分的概率是多少,那樣的概率是多少,就是分類問題。但是語言博大精深,如果碰到一個(gè)詞有可能有多種詞性,就要考慮上下文的關(guān)系,這就是多元的語言模型了建立條件概率,根據(jù)龐大的語料庫,單機(jī)計(jì)算猶如慢慢長夜,基于群集的分布式處理才能實(shí)現(xiàn)高效,mapreduce就派上用場(chǎng)了。
總之,數(shù)據(jù)驅(qū)動(dòng)一切。而此書主要針對(duì)文本型的密集數(shù)據(jù)進(jìn)行處理,此外作者還總結(jié)了幾個(gè)有意思的觀點(diǎn):
1). 至少對(duì)于文本數(shù)據(jù),其研究有三要素:數(shù)據(jù)本身、特征(數(shù)據(jù)的表示,或者說模型)以及算法(求解模型的數(shù)學(xué)方法);我們說數(shù)據(jù)就是點(diǎn),點(diǎn)連成線就是建了模型,而點(diǎn)如何成線就要萬能的Mathematics,然后根據(jù)你輸入的點(diǎn),就可以根據(jù)模型拿到你想要的。
2). 數(shù)據(jù)量越大,學(xué)習(xí)的準(zhǔn)確率越高,引發(fā)了爭議:只要有足夠的數(shù)據(jù),機(jī)器存儲(chǔ)量夠大、運(yùn)行速度夠快,算法并不重要。機(jī)器學(xué)習(xí)算法的研究者可以歇菜了。尼瑪,研究了兩年的算法難道就白費(fèi)了,還好只是爭議,況且目前數(shù)據(jù)和硬件還無法實(shí)現(xiàn)。
3). 平滑處理。大數(shù)據(jù)的處理,離不開統(tǒng)計(jì)。數(shù)據(jù)缺失時(shí)有發(fā)生,以前沒被雷劈過并表示你下雨打手機(jī)一定安全。在語音識(shí)別、機(jī)器翻譯時(shí)候的,平滑處理顯得尤為重要。
說了一大堆why后,就講到了what?不是的。是漸漸扯遠(yuǎn)了,只為吸引你。
從傳統(tǒng)的并行計(jì)算(MPI)、網(wǎng)格計(jì)算到效用計(jì)算(提供服務(wù)的計(jì)算模型)。云的最高境界,即一切的一切均抽象為服務(wù)。當(dāng)前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce設(shè)計(jì)模型恰是一種Powerful的抽象手段,將What和How分離,你只需享受終端的各種服務(wù),怎么做的,那是云端的事情。這讓我常想起廣告中的一些詞,如“聯(lián)所未連”、“智慧地球”。
??? 2.? 強(qiáng)大的思想
1).橫向拓展,非縱向延伸——普通pc機(jī)就能搭建龐大的群集,無需高性能計(jì)算機(jī),成本低;
2).容錯(cuò)性。當(dāng)出現(xiàn)down機(jī)時(shí),自動(dòng)重新分配節(jié)點(diǎn),依然能正確提供服務(wù),神不知鬼不覺;
3).計(jì)算本地化,盡量存儲(chǔ)與計(jì)算的分離,減少過多的網(wǎng)絡(luò)傳輸;
4).數(shù)據(jù)大而密集,采用批處理,順序讀取,避免隨機(jī)讀取。盡管對(duì)固態(tài)硬盤而言,兩種讀取差不多,但是固態(tài)硬盤的缺陷也很明顯,容量小,成本高,還短命;
5).對(duì)開發(fā)者而言,So easy,再也不用考慮過多的實(shí)現(xiàn)細(xì)節(jié)了,只需描述你要做什么,怎么做大多是系統(tǒng)封裝好了的;
6)擴(kuò)展能力,數(shù)據(jù)增大,可擴(kuò)展群集。當(dāng)數(shù)據(jù)固定,增加節(jié)點(diǎn),執(zhí)行更快,具有線性加速比。
???? 3.?? 與眾不同
隨著存儲(chǔ)成本下降,hadoop開源發(fā)展,云服務(wù)變得簡單,大數(shù)據(jù)無非就是存儲(chǔ)、算法處理、可視化。Mapreduce在存儲(chǔ)與算法間鍵搭起橋梁。群集的數(shù)據(jù)中心正如一臺(tái)超級(jí)電腦,馮氏計(jì)算機(jī)模型將不再高效。
??? ?4.?? 此書的內(nèi)容
此書主要針對(duì)密集文本進(jìn)行分析,提出算法設(shè)計(jì)及應(yīng)用。基于hadoop的Mapreduce開源實(shí)現(xiàn),但不會(huì)探討hadoop的api使用,如需了解,推薦《hadoop權(quán)威指南》(目前也在艱難的啃讀當(dāng)中)。
結(jié)束語:
今日獲悉,長沙又將迎來創(chuàng)紀(jì)錄的持續(xù)高溫天氣,酷暑已超過寂寞,實(shí)在難耐,祝各位涼快!
轉(zhuǎn)載于:https://www.cnblogs.com/csufubo/p/3232034.html
總結(jié)
以上是生活随笔為你收集整理的《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据库三范式的理解(引用其他网友)
- 下一篇: 解决J2EE系统应用性能问题常用方法