當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 运行机制

發布時間：2024/1/17 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark 运行机制小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. Spark運行基本流程

構建Spark Application的運行環境（啟動SparkContext），SparkContext向資源管理器（可以是Standalone、Mesos或YARN）注冊并申請運行Executor資源；

資源管理器分配Executor資源并啟動Executor，Executor運行情況將隨著心跳發送到資源管理器上；

SparkContext構建成DAG圖，將DAG圖分解成Stage，并把Taskset發送給Task Scheduler。Executor向SparkContext申請Task，Task Scheduler將Task發放給Executor運行同時SparkContext將應用程序代碼發放給Executor。

Task在Executor上運行，運行完畢釋放所有資源

2. Spark運行架構特點

每個Application獲取專屬的executor進程，該進程在Application期間一直駐留，并以多線程方式運行tasks。
Spark任務與資源管理器無關，只要能夠獲取executor進程，并能保持相互通信就可以。
提交SparkContext的Client應該靠近Worker節點（運行Executor的節點)，最好是在同一個Rack里，因為Spark程序運行過程中SparkContext和Executor之間有大量的信息交換；如果想在遠程集群中運行，最好使用RPC將SparkContext提交給集群，不要遠離Worker運行SparkContext。
Task采用了數據本地性和推測執行的優化機制。

Spark 任務調度

1. 任務調度流程圖

各個RDD之間存在著依賴關系，這些依賴關系就形成有向無環圖DAG，DAGScheduler對這些依賴關系形成的DAG進行Stage劃分，劃分的規則很簡單，從后往前回溯，遇到窄依賴加入本stage，遇見寬依賴進行Stage切分。完成了Stage的劃分。DAGScheduler基于每個Stage生成TaskSet,并將TaskSet提交給TaskScheduler。TaskScheduler 負責具體的task調度,最后在Worker節點上啟動task。

2. DAGScheduler

DAGScheduler對DAG有向無環圖進行Stage劃分。
記錄哪個RDD或者 Stage 輸出被物化（緩存），通常在一個復雜的shuffle之后，通常物化一下(cache、persist)，方便之后的計算。
重新提交shuffle輸出丟失的stage（stage內部計算出錯）給TaskScheduler
將 Taskset 傳給底層調度器?
- – spark-cluster TaskScheduler
- – yarn-cluster YarnClusterScheduler
- – yarn-client YarnClientClusterScheduler

3. TaskScheduler

為每一個TaskSet構建一個TaskSetManager 實例管理這個TaskSet 的生命周期
數據本地性決定每個Task最佳位置
提交 taskset( 一組task) 到集群運行并監控
推測執行，碰到計算緩慢任務需要放到別的節點上重試
重新提交Shuffle輸出丟失的Stage給DAGScheduler

總結

以上是生活随笔為你收集整理的Spark 运行机制的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spark RDD与DataFrame
下一篇： Spark RDD的缓存