Spark精华问答 | Spark做大规模高性能数值计算可以吗?
Spark作為一個用來實現快速而通用的集群計算的平臺。擴展了廣泛使用的MapReduce計算模型,而且高效地支持更多的計算模式,在處理大規模數據集的時候,速度是非常重要的。Spark的一個重要特點就是能夠在內存中計算,因而更快。即使在磁盤上進行的復雜計算,Spark依然比MapReduce更加高效。
1
Q:Spark做大規模高性能數值計算可以嗎?
A:Spark是高性能計算目前最佳的選擇大數據計算平臺;Spark的內存計算、快速迭代、DAG等都為大規模高性能數值計算提供了天然優勢;尤其值得一提的Spark框架的編寫使用Scala,應用程序開發也主要是Scala,而Scala是分布式多核編程的核心語言,其Function編程模型、Actor和并發的能力讓大規模高性能數值計算如虎添翼;Spark配合Tachyon可以極大的提升大規模高性能數值計算的效率。
Q:Spark sql可以代替hive和hbase嗎?
????????
A:Spark SQL可以取代Hive;Spark SQL可以完成HBase的大部分功能;Spark Streaming配合Spark SQL可以取代HBase。
Q:一個worker上會有多個executor?executor個數是一個app一個嗎?還是只有一個?
?
A:一個Worker會有多個executor,一個executor會運行多個task;一個executor只能為一個app實例服務,一個app可以有多個executor;Executor的配置要根據硬件和app處理的數據進行適當調優。
Q:只有一臺機器能學習嗎?
A:只有一臺機器學習Spark是沒有問題的;在一臺機器上,可以使用local模式運行Spark程序;在一臺機器上也可以通過VMware等虛擬機機制虛擬出多臺Linux機器,從而在多臺機器上搭建集群。
Q:Spark環境需要哪些? 除了HDFS基礎,有Spark集成包么?
????????
A:Spark的安裝需要Hadoop的HDFS;Spark有自己的集成包,但是依舊需要HDFS的配合;同時Spark也可以部署到亞馬遜云上。
小伙伴們沖鴨,后臺留言區等著你!
關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
在線公開課 | 從理論走向實踐,多角度詳解Cloud Native
蘋果春季發布會:庫克絕不玩別人玩剩下的!
中國區塊鏈職業發展現狀: 30歲前不做開發; 平均薪資僅38.4萬; 跳槽薪資漲三成 (附完整報告下載資源)
庫克談“唱衰蘋果”:一派胡言!
上海交大CV博導微信群辱罵學生,已停止教學
李沐團隊新作Gluon,復現CV經典模型到BERT,簡單好用 | 強烈推薦
日本樂天要求員工學編程,AI 進中小學課堂,全民編程時代來了!
真香,朕在看了!
總結
以上是生活随笔為你收集整理的Spark精华问答 | Spark做大规模高性能数值计算可以吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小米笔记本air从u盘启动怎么办 小米笔
- 下一篇: Boost::context模块call