RDD的执行流程(简略)
生活随笔
收集整理的這篇文章主要介紹了
RDD的执行流程(简略)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
從計算的角度來講,數據處理過程中需要計算資源(內存 & CPU)和計算模型(邏輯)。執行時,需要將計算資源和計算模型進行協調和整合。
流程概括:
①準備資源
②創建Driver和Executor節點
②然后將應用程序的數據處理邏輯分解成一個一個的計算任務task。
③然后將任務task發到【已經分配資源】的計算節點executor上, 按照指定的計算模型進行數據計算。最后得到計算結果
1. 啟動 Yarn 集群環境(準備資源)
2. Spark 通過申請資源創建調度節點Driver和計算節點Executor
Driver和Executor都是運行在NodeManager上面的 !
ResourceManager是用于管理的,所以真正運行任務的是NodeManager
3. Spark 框架根據需求將計算邏輯根據分區劃分成不同的task任務
Driver用于在Executor節點之間調度task任務
多個RDD會組合形成關聯,再分解為多個Task任務,并放到TaskPool任務池中(因為需要調度task任務)
4. 調度節點Driver將任務根據計算節點狀態發送到對應的計算節點進行計算
( Executor 通過自身塊管理器為用戶程序中要求緩存的RDD提供內存式Cache存儲 )
調度節點Driver會將Task從任務池中取出,然后根據節點狀態、首選位置來發送到不同的Executor進行計算
從以上流程可以看出 RDD 在整個流程中主要用于將邏輯進行封裝,并生成 Task 發送給Executor 節點執行計算
總結
以上是生活随笔為你收集整理的RDD的执行流程(简略)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab去雾处理是视频,一种快速视频
- 下一篇: HTML之css实现平移效果(鼠标悬停)