pyspark模块介绍
生活随笔
收集整理的這篇文章主要介紹了
pyspark模块介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
pyspark是Spark的python API,提供了使用python編寫并提交大數據處理作業的接口。 在pyspark里大致分為5個主要的模塊
- Sparkcontext:它是編寫Spark程序的主入口
- RDD:分布式彈性數據集,是Spark內部中最重要的抽象
- Broadcast:在各個任務task中重復使用的廣播變量
- Accumulator:一個只能增加的累加器,在各個任務中都可以進行累加,最 終進行全局累加
- SparkConf:一個配置對象,用來對Spark中的例如資源,內核個數,提交 模式等的配置
- SparkFiles:文件訪問API
- StorageLevel:它提供了細粒度的對于數據的緩存、持久化級別
- TaskContext:實驗性質的API,用于獲取運行中任務的上下文信息。
- SparkSession:SparkSQL的主入口,其內部仍然是調用 SparkContext的
- DataFrame:分布式的結構化的數據集,最終的計算仍然轉換為 RDD上的計算
- Column:DataFrame中的列 Row:DataFrame中的行
- GroupedData:這里提供聚合數據的一些方法
- DataFrameNaFunctions:處理缺失數據的方法
- DataFrameStatFunctions:提供統計數據的一些方法
- functions:內建的可用于DataFrame的方法
- types:可用的數據類型 Window:提供窗口函數的支持
- 接收數據的原理及過程
- 接收網絡數據
- 接收kafka數據
總結
以上是生活随笔為你收集整理的pyspark模块介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 想在农村开个电商怎么做 想创业的投资不要
- 下一篇: 额外篇 | ggplot (下)