Python应用实战案例-pyspark库从安装到实战保姆级讲解
生活随笔
收集整理的這篇文章主要介紹了
Python应用实战案例-pyspark库从安装到实战保姆级讲解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
01 pyspark簡介及環境搭建
pyspark是python中的一個第三方庫,相當于Apache Spark組件的python化版本(Spark當前支持Java Scala Python和R 4種編程語言接口),需要依賴py4j庫(即python for java的縮略詞),而恰恰是這個庫實現了將python和java的互聯,所以pyspark庫雖然體積很大,大約226M,但實際上絕大部分都是spark中的原生jar包,占據了217M,體積占比高達96%。
由于Spark是基于Scala語言實現的大數據組件,而Scala語言又是運行在JVM虛擬機上的,所以Spark自然依賴JDK,截止目前為止JDK8依然可用,而且幾乎是安裝各大數據組件時的首選。所以搭建pyspark環境首先需要安裝JDK8,而后這里介紹兩種方式搭建pyspark運行環境:
1)pip install pyspark+任意pythonIDE
pyspark作為python的一個第三方庫,自然可以通過pip包管理工具進行安裝,所以僅需執行如下命令即可完成自動安裝:
為了保證更快的下載速度,可以更改pip源為國內鏡像,具體設置方式可參考歷史文章:
總結
以上是生活随笔為你收集整理的Python应用实战案例-pyspark库从安装到实战保姆级讲解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数学建模】线性代数知识汇总,参加建模大
- 下一篇: Python应用实战案例-Python实