【收藏】spark中map与mapPartitions区别
生活随笔
收集整理的這篇文章主要介紹了
【收藏】spark中map与mapPartitions区别
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
兩個(gè)函數(shù)最終處理得到的結(jié)果是一樣的
mapPartitions比較適合需要分批處理數(shù)據(jù)的情況,比如將數(shù)據(jù)插入某個(gè)表,每批數(shù)據(jù)只需要開啟一次數(shù)據(jù)庫(kù)連接,大大減少了連接開支,偽代碼如下:
arrayRDD.mapPartitions(datas=>{dbConnect = getDbConnect() //獲取數(shù)據(jù)庫(kù)連接datas.foreach(data=>{dbConnect.insert(data) //循環(huán)插入數(shù)據(jù)})dbConnect.commit() //提交數(shù)據(jù)庫(kù)事務(wù)dbConnect.close() //關(guān)閉數(shù)據(jù)庫(kù)連接})https://www.cnblogs.com/wbh1000/p/9846527.html
總結(jié)
以上是生活随笔為你收集整理的【收藏】spark中map与mapPartitions区别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【收藏】Spark之RDD的mapPar
- 下一篇: Scala模拟Spark分布式计算流程示