Spark精华问答 | Spark 会替代Hadoop 吗?
戳藍字“CSDN云計算”關注我們哦!
Spark是一個針對超大數據集合的低延遲的集群分布式計算系統,比MapReducer快40倍左右,是hadoop的升級版本,Hadoop作為第一代產品使用HDFS,第二代加入了Cache來保存中間計算結果,并能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。今天,就讓我們一起來看看關于它的更加深度精華問答吧!
1
Q:目前那些行業在用Spark處理大數據?
A:Spark技術在國內外的應用開始越來越廣泛,它正在逐漸走向成熟,并在這個領域扮演更加重要的角色。國外一些大型互聯網公司已經部署了Spark。例如:一直支持Hadoop的四大商業機構(Cloudera、MapR、Hortonworks、EMC)已紛紛宣布支持Spark;Mahout前一階段也表示,將不再接受任何形式以MapReduce實現的算法,同時還宣布了接受基于Spark新的算法;而Cloudera的機器學習框架Oryx的執行引擎也將由Hadoop的MapReduce替換成Spark;另外,Google也已經開始將負載從MapReduce轉移到Pregel和Dremel上;FaceBook也宣布將負載轉移到Presto上……,淘寶、優酷土豆、網易、百度、騰訊等國內大型知名企業已經在商業生產環境下開始使用Spark技術;Intel、IBM、Linkin、Twwitter等國外大型知名企業也都在大力支持Spark。
Q:Spark 會替代Hadoop 嗎?
A:Hadoop在云計算大數據發展的早期做出了卓越的貢獻,其MapReduce模型極大的簡化了海量數據的分析。隨著大數據多重處理例如迭代計算、機器學習、圖計算等和低延遲交互式查詢的需求爆發式的增長,Hadoop在架構的先天緩慢性導致了其無法滿足人們在處理大數據時候的復雜計算和快速響應,Spark應運而生。
Hadoop的HDFS已經成為大數據存儲的實施標準,例如淘寶內部有多帶大數據處理系統,但是存儲系統統一采用HDFS,其HDFS集群規模超過5000臺,現在的Spark一般情況下都是從HDFS上獲取數據并把計算后的數據交給HDFS。
Yarn這個資源管理框架也正在成為事實的群集資源管理標準,極大的簡化了多套系統下資源的管理和數據的共享。
Spark會取代Hadoop的計算框架MapReduce,現在Hadoop的世界上最知名的四大發行商都正在由MapReduce轉向Spark。Spark會成為大數據時代通用的計算平臺。
Q:開發Spark程序,用Python和Scala區別大嗎?
A:就代碼的風格而言是不大的;世界上也有很多人使用Python開發Spark程序;但是最為推薦的是Scala,因為Spark框架是用Scala編寫的,在API方面對Scala的支持也是最好的。
Q:SPARK環境需要哪些? 除了HDFS基礎,有SPARK集成包么?
A:Spark的安裝需要Hadoop的HDFS;Spark有自己的集成包,但是依舊需要HDFS的配合;同時Spark也可以部署到亞馬遜云上。
Q: groupbykey是排好序的嗎?分組排序 怎么實現?
A:groupByKey在一個由(K,V)對組成的數據集上調用,返回一個(K,Seq[V])對的數據集,所以是沒有排序的;要想分組排序,首先要使用groupByKey完成分組功能,然后使用sortWith這個函數對指完成排序實現。
小伙伴們沖鴨,后臺留言區等著你!
關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
全面剖析企業私有云
30 秒?!Chrome 插件帶你速成編程學習 | 程序員硬核評測
為什么程序員下班后只關顯示器從不關電腦?
算法警告!該圖片涉嫌違規不予顯示
交易機器人春天已來?先看完這篇再說吧
2019年中國IT市場趨勢熱點
2019年最值得關注的五大微服務發展趨勢
總結
以上是生活随笔為你收集整理的Spark精华问答 | Spark 会替代Hadoop 吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对象的基础用法和解构赋值
- 下一篇: win10更换不了账户密码怎么办 win