pyspark 通过list 构建rdd
生活随笔
收集整理的這篇文章主要介紹了
pyspark 通过list 构建rdd
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
pyspark 通過list 構建rdd
from pyspark import SparkContext ,SparkConfconf=SparkConf().setAppName("miniProject").setMaster("local[4]") #conf=SparkConf().setAppName("lg").setMaster("spark://192.168.10.182:7077") sc = SparkContext(conf=conf)#b=sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect()data = list(range(10**4)) distData = sc.parallelize(data) 打印rdd print(distData.collect())reduce=distData.reduce(lambda a, b: a + b)print(reduce)#rdd = sc.parallelize(range(1, 4)).map(lambda x: (x, "a" * x)) # ##rdd.saveAsSequenceFile("path/to/file") # #print(sorted(sc.sequenceFile("path/to/file").collect())) sc.stop()posted on 2019-03-07 22:14 luoganttcc 閱讀(...) 評論(...) 編輯 收藏
總結
以上是生活随笔為你收集整理的pyspark 通过list 构建rdd的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyspark 连接mysql
- 下一篇: pyspark rdd 数据持久化