Spark 运行机制
生活随笔
收集整理的這篇文章主要介紹了
Spark 运行机制
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. Spark運行基本流程
2. Spark運行架構特點
- 每個Application獲取專屬的executor進程,該進程在Application期間一直駐留,并以多線程方式運行tasks。
- Spark任務與資源管理器無關,只要能夠獲取executor進程,并能保持相互通信就可以。
- 提交SparkContext的Client應該靠近Worker節點(運行Executor的節點),最好是在同一個Rack里,因為Spark程序運行過程中SparkContext和Executor之間有大量的信息交換;如果想在遠程集群中運行,最好使用RPC將SparkContext提交給集群,不要遠離Worker運行SparkContext。
- Task采用了數據本地性和推測執行的優化機制。
Spark 任務調度
1. 任務調度流程圖
各個RDD之間存在著依賴關系,這些依賴關系就形成有向無環圖DAG,DAGScheduler對這些依賴關系形成的DAG進行Stage劃分,劃分的規則很簡單,從后往前回溯,遇到窄依賴加入本stage,遇見寬依賴進行Stage切分。完成了Stage的劃分。DAGScheduler基于每個Stage生成TaskSet,并將TaskSet提交給TaskScheduler。TaskScheduler 負責具體的task調度,最后在Worker節點上啟動task。
2. DAGScheduler
- DAGScheduler對DAG有向無環圖進行Stage劃分。
- 記錄哪個RDD或者 Stage 輸出被物化(緩存),通常在一個復雜的shuffle之后,通常物化一下(cache、persist),方便之后的計算。
- 重新提交shuffle輸出丟失的stage(stage內部計算出錯)給TaskScheduler
- 將 Taskset 傳給底層調度器?
- – spark-cluster TaskScheduler
- – yarn-cluster YarnClusterScheduler
- – yarn-client YarnClientClusterScheduler
3. TaskScheduler
- 為每一個TaskSet構建一個TaskSetManager 實例管理這個TaskSet 的生命周期
- 數據本地性決定每個Task最佳位置
- 提交 taskset( 一組task) 到集群運行并監控
- 推測執行,碰到計算緩慢任務需要放到別的節點上重試
- 重新提交Shuffle輸出丟失的Stage給DAGScheduler
總結
以上是生活随笔為你收集整理的Spark 运行机制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark RDD与DataFrame
- 下一篇: Spark RDD的缓存