云计算已在大数据分析中发挥重要作用
大數(shù)據(jù)并不是實(shí)時(shí)vs.批處理的問(wèn)題。正如Ovum的分析師Tony Baer和其他一些分析師所指出的那樣,這不是一個(gè)非此即彼的問(wèn)題。鑒于現(xiàn)如今的企業(yè)用戶在制定一套成功的大數(shù)據(jù)戰(zhàn)略方面有著廣泛的選擇和大量的工作負(fù)載,上述分析師的論斷也并不奇怪或有什么值得爭(zhēng)議的。
更具爭(zhēng)議性的話題是,雖然也許并不令人感到驚訝,是從被需要用以獲得大多數(shù)大數(shù)據(jù)的基礎(chǔ)設(shè)施中獲得其性質(zhì)。例如,AWS(亞馬遜Web服務(wù))的數(shù)據(jù)科學(xué)主管馬特·伍德警告說(shuō),雖然“分析是會(huì)令人上癮的,但如果你企業(yè)的基礎(chǔ)設(shè)施跟不上的話,這種積極的上癮會(huì)迅速逆轉(zhuǎn)。”
伍德說(shuō),大數(shù)據(jù)項(xiàng)目的成功的關(guān)鍵,不僅僅只是選擇Spark或Hadoop。其運(yùn)行還依賴于彈性的基礎(chǔ)設(shè)施。
Hortonworks公司的企業(yè)戰(zhàn)略副總裁肖恩·康納利認(rèn)為,云計(jì)算已經(jīng)在大數(shù)據(jù)分析中發(fā)揮了很大的作用。但康納利表示,決定大數(shù)據(jù)在何處進(jìn)行處理的最大的因素是“數(shù)據(jù)的引力”,而不是彈性。
康納利說(shuō),企業(yè)部署大數(shù)據(jù)項(xiàng)目的主要的驅(qū)動(dòng)因素是要擴(kuò)大和加強(qiáng)傳統(tǒng)的內(nèi)部部署的系統(tǒng),如數(shù)據(jù)倉(cāng)庫(kù)。最終,這會(huì)導(dǎo)致大型企業(yè)需要在多處位置部署Hadoop和其他分析集群——通常需要在企業(yè)現(xiàn)場(chǎng)。
然而,康納利也承認(rèn),對(duì)于開(kāi)發(fā)和測(cè)試新的分析應(yīng)用程序和處理來(lái)自企業(yè)外部的大數(shù)據(jù)而言,云計(jì)算已然成為了新興的且越來(lái)越受歡迎的選擇。
大數(shù)據(jù)分析的基本成分
AWS大數(shù)據(jù)的客戶范圍相當(dāng)廣泛,既包括像Reddit這樣的初創(chuàng)型企業(yè),也包括Novartis和Merck這樣的大規(guī)模的企業(yè),對(duì)于任何一款分析系統(tǒng)而言,伍德均建議企業(yè)從如下三大關(guān)鍵要素開(kāi)始考量:
1、單一來(lái)源的真相。AWS提供了多種方式以存儲(chǔ)單一來(lái)源的真相(single source of truth),從S3存儲(chǔ)到像DynamoDB或RDS或從Aurora到諸如Redshift這樣的數(shù)據(jù)倉(cāng)庫(kù)解決方案。
2、實(shí)時(shí)分析。伍德說(shuō),企業(yè)通常會(huì)利用streaming數(shù)據(jù)傳輸來(lái)增加這種單一來(lái)源的真相,如網(wǎng)站點(diǎn)擊量或金融交易情況。而AWS則提供了Kinesis以幫助實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)處理,其他已有的選項(xiàng)包括諸如Apache Storm 和Spark。
3、專用任務(wù)集群。任務(wù)集群是一組運(yùn)行諸如Hadoop這樣的分布式框架的實(shí)例,但能夠執(zhí)行專門(mén)的任務(wù),如數(shù)據(jù)的可視化。
考慮到上述這些要素,伍德重申,大數(shù)據(jù)并不是一個(gè)批量處理VS.實(shí)時(shí)處理的問(wèn)題,而是涉及廣泛的工具集,可以讓你以多種方式處理數(shù)據(jù):
其不是選擇Spark或Hadoop的問(wèn)題。其應(yīng)該是一個(gè)多種選擇相加的“和”問(wèn)題,而不是一個(gè)二選一的“或”的問(wèn)題。如果你企業(yè)使用Spark,不排除你企業(yè)會(huì)在其他領(lǐng)域采用傳統(tǒng)的MapReduce或Mahout。你必須選擇恰當(dāng)?shù)墓ぞ?#xff0c;已完成工作。
在伍德看來(lái),“實(shí)時(shí)數(shù)據(jù)處理的絕對(duì)會(huì)有進(jìn)行向前發(fā)展的潛力,但其應(yīng)該是大數(shù)據(jù)系統(tǒng)的催化添加劑。”
這也呼應(yīng)了Hadoop的創(chuàng)始人Doug Cutting不久前在接受記者采訪時(shí)所說(shuō)的。他在回答關(guān)于streaming數(shù)據(jù)傳輸或?qū)崟r(shí)數(shù)據(jù)處理是否會(huì)取代如Hadoop的問(wèn)題時(shí),表示說(shuō):
我不認(rèn)為市場(chǎng)會(huì)朝著streaming數(shù)據(jù)傳輸有任何大規(guī)模的轉(zhuǎn)向。而streaming數(shù)據(jù)傳輸現(xiàn)在加入到處理選項(xiàng),企業(yè)用戶能夠有方法進(jìn)行相應(yīng)的處置。當(dāng)他們需要互動(dòng)的BI時(shí),他們會(huì)用Impala;當(dāng)他們需要分面搜索(faceted search)時(shí),他們會(huì)使用Solr;當(dāng)他們需要實(shí)時(shí)分析時(shí),他們會(huì)使用Spark Streaming。企業(yè)當(dāng)然也還是會(huì)進(jìn)行回顧性分析,也會(huì)采取批處理的方法。一個(gè)成熟的平臺(tái)用戶可能會(huì)使用所有這些。
Hortonworks公司的康納利對(duì)于未來(lái)的發(fā)展也持有類似的觀點(diǎn)。Hadoop被企業(yè)作為一種以相當(dāng)?shù)偷某杀驹诂F(xiàn)有應(yīng)用程序的筒倉(cāng)擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)和基礎(chǔ)設(shè)施分析的方法。但隨著客戶變得更加成熟,新的數(shù)據(jù)源,新的工具,會(huì)經(jīng)常會(huì)讓云計(jì)算也參合進(jìn)來(lái):
如果你在考慮采用圍繞著360度視角的商業(yè)用例(其在不同的孤島整合客戶或產(chǎn)品數(shù)據(jù)),其可能已經(jīng)開(kāi)啟。但你的機(jī)器學(xué)習(xí)和數(shù)據(jù)發(fā)現(xiàn)可能是在云中。你可能有新的數(shù)據(jù)集如天氣數(shù)據(jù)和普查數(shù)據(jù),而這些數(shù)據(jù)在您企業(yè)內(nèi)部已經(jīng)不可能有了,所以你可能要將現(xiàn)有數(shù)據(jù)進(jìn)行組合,以便執(zhí)行先進(jìn)的機(jī)器學(xué)習(xí)。
康納利說(shuō),因?yàn)槲锢矶山箶?shù)百TB或PB級(jí)的數(shù)據(jù)跨網(wǎng)絡(luò)進(jìn)行方便的遷移,客戶將開(kāi)啟Hadoop集群和各種云,以便能夠在大部署數(shù)據(jù)一登陸,就執(zhí)行相應(yīng)的分析。即他所謂的“數(shù)據(jù)的重要性”這一術(shù)語(yǔ)。當(dāng)來(lái)源于企業(yè)外部的新的數(shù)據(jù)集到達(dá)時(shí)(如氣象數(shù)據(jù)、人口普查數(shù)據(jù),以及機(jī)器和傳感器的數(shù)據(jù)),云計(jì)算成為一個(gè)執(zhí)行數(shù)據(jù)處理的天然場(chǎng)所。
建立彈性和規(guī)模化
雖然很多人錯(cuò)誤地認(rèn)為大數(shù)據(jù)就是海量的數(shù)據(jù),卻忽視了大內(nèi)在的更常見(jiàn)的繁雜的種類和傳遞速度的快速的特點(diǎn),其真實(shí)的數(shù)據(jù)量也不像某些人認(rèn)為的那樣簡(jiǎn)單。
在亞馬遜的伍德看來(lái),大數(shù)據(jù)所帶來(lái)的挑戰(zhàn)“與其說(shuō)是有關(guān)數(shù)據(jù)的絕對(duì)規(guī)模,還不如說(shuō)是其相對(duì)的規(guī)模。”也就是說(shuō),雖然像人類基因工程這樣的項(xiàng)目可能始于十億字節(jié)規(guī)模的項(xiàng)目,但其很快就進(jìn)入TB級(jí),然后發(fā)展為PB級(jí)的規(guī)模。 “客戶目前正在經(jīng)歷工具規(guī)模的大幅轉(zhuǎn)變。”伍德指出,但是,當(dāng)規(guī)模進(jìn)一步發(fā)生階躍型變化時(shí),企業(yè)有可能完全措手不及。
正如伍德在我們之前的談話中告訴我的那樣,“那些走出去購(gòu)買(mǎi)昂貴的基礎(chǔ)設(shè)施的企業(yè)會(huì)發(fā)現(xiàn),問(wèn)題的范圍和領(lǐng)域的轉(zhuǎn)變真的太快了。當(dāng)他們剛剛解答了最初的問(wèn)題的時(shí)候,企業(yè)的問(wèn)題可能已經(jīng)轉(zhuǎn)移了。”
換句話說(shuō),“企業(yè)需要一個(gè)平臺(tái),能夠允許他們不斷的從一種規(guī)模進(jìn)入到下一種規(guī)模,乃至再下一種規(guī)模。如果您數(shù)據(jù)中心無(wú)法應(yīng)付如此大規(guī)模的轉(zhuǎn)變,那么,您企業(yè)的業(yè)務(wù)可能無(wú)法隨著時(shí)間的推移而向前邁進(jìn)。”
伍德舉了天氣預(yù)報(bào)頻道作為一個(gè)例子,在過(guò)去,我們可能只會(huì)每個(gè)四個(gè)小時(shí)獲得一次僅僅只覆蓋了幾百萬(wàn)個(gè)地理位置的天氣報(bào)告,而現(xiàn)在,在AWS上每隔幾分鐘都會(huì)有設(shè)計(jì)幾十億出地理位置的天氣狀況的數(shù)據(jù)更新,而且還是保證百分百的正常運(yùn)行時(shí)間。換句話說(shuō),這不僅僅是關(guān)于大數(shù)據(jù)的處理,而且還涉及到數(shù)據(jù)的云交付。
對(duì)于Hortonworks公司的康納利來(lái)說(shuō),云計(jì)算的靈活性與其彈性的可擴(kuò)展性一樣重要。“我們開(kāi)始進(jìn)行更多的開(kāi)發(fā)測(cè)試,讓我們可以只需采用ad hoc集群即可實(shí)現(xiàn)圍繞著數(shù)據(jù)子集的工作,”他說(shuō)。
他說(shuō),特別是在機(jī)器學(xué)習(xí)的情況下,你可以為機(jī)器學(xué)習(xí)解決方案推動(dòng)足夠的數(shù)據(jù),讓您得以能夠在云中創(chuàng)建你的決策模型。該模型將被用于更廣泛的應(yīng)用程序,其可能部署到其他地方。
“云計(jì)算對(duì)于前端的‘概念證明,以及讓一些初步應(yīng)用開(kāi)始啟動(dòng)’非常有幫助,”他補(bǔ)充道。“一旦這樣做了,問(wèn)題就變成了:“因?yàn)檫@涉及到大量的數(shù)據(jù),其是否需要遷移到企業(yè)內(nèi)部,或是將其留在云中?”
康納利說(shuō),最終,這不是一個(gè)將數(shù)據(jù)“全部托管在云”與“全部存儲(chǔ)在企業(yè)內(nèi)部”的困境的問(wèn)題。大量的情況是:只要大量的數(shù)據(jù)被生成,相應(yīng)的分析就將繼續(xù)。而在其他的情況下,如機(jī)器或傳感器數(shù)據(jù)流的處理情況下,云是一個(gè)自然的起點(diǎn)。
康納利認(rèn)為:“在接下來(lái)的一年或兩年,圍繞著企業(yè)希望將預(yù)算花費(fèi)在何處、數(shù)據(jù)的來(lái)源、以及企業(yè)希望在何處運(yùn)行技術(shù)的話題將掀起廣泛的討論,我認(rèn)為這將是一個(gè)廣泛聯(lián)系的混合的經(jīng)驗(yàn)技術(shù)周期。”
然而,其到底將如何形成,很明顯,最成功的大數(shù)據(jù)戰(zhàn)略將包括一系列的在云計(jì)算中運(yùn)行的大數(shù)據(jù)技術(shù)。
本文作者:litao984lt
來(lái)源:51CTO
總結(jié)
以上是生活随笔為你收集整理的云计算已在大数据分析中发挥重要作用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: nginx忽略文件名大小写
- 下一篇: 企业选择使用混合云集成的原因