阿龙学堂-Spark 数据倾斜如何处理
生活随笔
收集整理的這篇文章主要介紹了
阿龙学堂-Spark 数据倾斜如何处理
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1、處理方式
數(shù)據(jù)傾斜的問題優(yōu)先從數(shù)據(jù)源解決,以下方法是輔助緩解:
選取key,對數(shù)據(jù)進(jìn)行抽樣,統(tǒng)計出現(xiàn)的次數(shù),根據(jù)出現(xiàn)次數(shù)大小排序取出前幾個
df.select("key") .sample(false,0.1) .(k=>(k,1)) .reduceBykey(_+_) .map(k=>(k._2,k._1)) .sortByKey(false) .take(10)2、數(shù)據(jù)傾斜情況
3、解決辦法
4、注意事項
SQL中Join關(guān)聯(lián)key使用rand()可能導(dǎo)致數(shù)據(jù)重復(fù)(丟失)問題
5、參考資料
建議認(rèn)真閱讀參考資料:
http://www.jasongj.com/spark/skew/
https://www.iteblog.com/archives/1671.html
--------------------------------------------------------------------------------
?
--------------------------------------------------------------------------------
有問題請聯(lián)系QQ:765120845
歡迎關(guān)注微信公眾號? 【阿龍學(xué)堂】,更多編程基礎(chǔ)知識及機器學(xué)習(xí)學(xué)習(xí)內(nèi)容
?
總結(jié)
以上是生活随笔為你收集整理的阿龙学堂-Spark 数据倾斜如何处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 抖音全球购安心购服务规范|四川鹰迪
- 下一篇: w10投影全屏设置_win10如何让投影