Spark精华问答 | 怎么运行Spark?
戳藍字“CSDN云計算”關注我們哦!
為什么要學習Spark?作為一個用來實現快速而通用的集群計算的平臺。擴展廣泛使用的MapReduce計算模型,而且高效地支持更多的計算模式,包括交互式查詢和流處理。Spark的一個重要特點就是能夠在內存中計算,因而更快。即使在磁盤上進行的復雜計算,Spark依然比MapReduce更加高效。優勢如此明顯的Spark,是不是要好好學習一下呢?
1
Q:學了Spark有什么用呢?
A:首先說一下Spark的優勢:
1、?更高的性能。因為數據被加載到集群主機的分布式內存中。數據可以被快速的轉換迭代,并緩存用以后續的頻繁訪問需求。在數據全部加載到內存的情況下,Spark可以比Hadoop快100倍,在內存不夠存放所有數據的情況下快hadoop10倍。
2、通過建立在Java、Scala、Python、SQL(應對交互式查詢)的標準API以方便各行各業使用,同時還含有大量開箱即用的機器學習庫。?
3、與現有Hadoop 1和2.x(YARN)生態兼容,因此機構可以無縫遷移。?
4、方便下載和安裝。方便的Shell(REPL: Read-Eval-Print-Loop)可以對API進行交互式的學習。?
5、借助高等級的架構提高生產力,從而可以講精力放到計算上。
所以總結一下就是簡單,快速,兼容性好,功能強大。不用再將注意力放在框架上,而是集中于業務邏輯,所以在大數據中Spark很受歡迎,學習Spark,符合市場需求。
2
Q:怎么運行Spark?
A:Local本地模式、Spark獨立集群、Mesos、Yarn-Standalone、Yarn-Client
3
Q:Spark Api語言支持
A:(1)Scala(2)Java(3)Python
4
Q:RDD(彈性分布式數據集)是?
A:只讀的、分塊的數據記錄集合
可以通過讀取來不同存儲類型的數據進行創建、或者通過RDD操作生成(map、filter操作等)
使用者只能控制RDD的緩存或者分區方式
RDD的數據可以有多種類型存儲方式(可(序列化)存在內存或硬盤中)?
5
Q:用DataFrame對數據進行處理,然后轉成RDD,調用saveAsTextFile方法保存在HDFS上,然后出現了400個文件,但只有6條數據,大部分文件都是空的,調用RDD的partitions方法,有400個partition,也就是一個partition寫了一個文件,而空的partition寫成了空的文件,能不能不寫空的文件?
A:修改分區就行了
val?rdd1?=?sc.parallelize(Array(1,2,3,4,5,6,7,8))
#??查看分區數
rdd1.partitions.length
#?改成1個分區
val?rdd2?=?rdd1.repartition(1)
rdd2.partitions.length
小伙伴們沖鴨,后臺留言區等著你!
關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~
福利
1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!
推薦閱讀:
Docker,一個傲嬌的男人
做了中臺就不會死嗎?每年至少40%開發資源是被浪費的!
AI“生死”落地:誰有資格入選AI Top 30+案例?
Python爬取B站5000條視頻,揭秘為何千萬人為它流淚
最前沿:堪比E=mc2,Al-GA才是實現AGI的指標性方法論?
Zend 創始人欲創建 PHP 方言,暫名為 P++;鴻蒙 OS 面世;中國首個開源協議誕生 | 開發者周刊
真香,朕在看了!
總結
以上是生活随笔為你收集整理的Spark精华问答 | 怎么运行Spark?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GitHub 被爆开始实名制,以便于执行
- 下一篇: 复联票房超阿凡达 创首轮公映票房最高