提高spark任务稳定性的解决方案及Blacklist 机制说明解释
生活随笔
收集整理的這篇文章主要介紹了
提高spark任务稳定性的解决方案及Blacklist 机制说明解释
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
分布式集群中,特別是高負載的情況下,就會引發很多意想不到的問題,例如:
1、壞盤/硬盤滿將會導致 /path/to/usercache 目錄創建失敗,一個stage中任務失敗次數達到一定次數(spark.task.maxFailures)會導致整個job失敗。
2、executor 注冊 external shuffle service 超時。
3、executor 從 external shuffle service 獲取數據超時,task 反復失敗后導致了整 個stage 的失敗。
4、環境依賴問題,例如 xxx 包不存在, xxx 包沒有安裝。
5、dns 沒有配置,網絡不通。
...
為什么 task 失敗后還會被 schedular 重新調度在原來的 node 或是 executor上?
數據本地性(spark會優先把task調度在有相應數據的節點上)導致。
是否只能聽天由命,每次失敗后重新調度? 如果任務有SLA
總結
以上是生活随笔為你收集整理的提高spark任务稳定性的解决方案及Blacklist 机制说明解释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数学建模竞赛
- 下一篇: 华为畅享max有没有人脸识别_华为畅享Z