spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)
[1]寬依賴和窄依賴,這是Spark計算引擎劃分Stage的根源所在,遇到寬依賴,則劃分為多個stage,針對每個Stage,提交一個TaskSet:
上圖:一張網上的圖:
(個人筆記,rdd中有多個partition,著這里的藍色小塊是partition,? 藍色方框是rdd)
基于此圖,分析下這里為什么前面的流程都是窄依賴,而后面的卻是寬依賴:
我們仔細看看,map和filter算子中,對于父RDD來說,一個分區內的數據,有且僅有一個子RDD的分區來消費該數據。
同樣,UNION算子也是同樣的:
所以,我們判斷窄依賴的依據就是:父類分區內的數據,會被子類RDD中的指定的唯一一個分區所消費:
這是很重要的:
面試的時候,面試官問到了一個問題,如果父類RDD有很多的分區,而子類RDD只有一個分區,我們可以使用repartition或者coalesce算子來實現該效果,請問,這種實現是寬依賴?還是窄依賴?
如果從網上流傳的一種觀點:子RDD一個partition內的數據依賴于父類RDD的所有分區,則為寬依賴,這種判斷明顯是錯誤的:
別笑,網上的確有這種說法,我差點栽了跟頭,這種解釋實質上是錯誤的,因為如果我們的reduceTask只有一個的時候,只有一個分區,這個分區內的數據,肯定依賴于所有的父類RDD:
毫無疑問,這是個窄依賴:
相對之下,什么是寬依賴呢?
寬依賴,指的是父類一個分區內的數據,會被子RDD內的多個分區消費,需要自行判斷分區,來實現數據發送的效果:
總結一下:
窄依賴:父RDD中,每個分區內的數據,都只會被子RDD中特定的分區所消費,為窄依賴:
寬依賴:父RDD中,分區內的數據,會被子RDD內多個分區消費,則為寬依賴:
這里,還存在一個可能被挑刺的地方,比如說父類每個分區內都只有一個數據,毫無疑問,這些數據都會被唯一地指定到子類的某個分區內,這是窄依賴?還是寬依賴?
這時候,可以從另外一個角度來看問題:
每個分區內的數據,是否能夠指定自己在子類RDD中的分區?
如果不能,那就是寬依賴:如果父RDD和子RDD分區數目一致,那基本就是窄依賴了:
總之,還是要把握住根本之處,就是父RDD中分區內的數據,是否在子類RDD中也完全處于一個分區,如果是,窄依賴,如果不是,寬依賴。
自己注釋:
其實所謂的窄依賴的意思是,父RDD中的數據只被使用一次
#######################################################################################
上面提到的這張圖,對應的具體代碼到底是什么?
這里的藍色實心矩形是Partition,藍色方框代表的是下方代碼中的rdd1和rdd2
與上圖對應的代碼如下:
scala> val rdd1=sc.parallelize(Array(1,5,4,6,8,6)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24scala> val rdd2=sc.parallelize(Array(1,5,2,3,6,8)) rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[66] at parallelize at <console>:24scala> val result=rdd1.intersection(rdd2) result: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[72] at intersection at <console>:27scala> result.collect() res54: Array[Int] = Array(6, 8, 1, 5)scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[73] at union at <console>:27scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[74] at union at <console>:27scala> result.collect() res55: Array[Int] = Array(1, 5, 4, 6, 8, 6, 1, 5, 2, 3, 6, 8)scala> rdd1.getNumPartitions res56: Int = 2scala> rdd2.getNumPartitions res57: Int = 2scala> result.getNumPartitions res58: Int = 4執行上述代碼的時候,會發現,最終結果中, rdd1中和rdd2中的元素都沒有修改原來的順序。
[2]
窄依賴:filter map flatmap mapPartitions
寬依賴:reduceByKey grupByKey combineByKey,sortByKey, join(no copartition)
| 依賴類型 | 效果 |
| 窄依賴 | 沒有發生shuffle |
| 寬依賴 | 存在shuffle |
Reference:
[1]聊聊Spark中的寬依賴和窄依賴
[2]spark 中 寬依賴 和 窄依賴的 區別及優缺點
[3](16條消息) 論寬依賴、窄依賴與shuffle_zh_wang的博客-CSDN博客_shuffle依賴
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算质数通过分区(Partition)提
- 下一篇: 淘宝如何买(淘宝海外全球站首页)