pySpark环境搭建
1.序
由于筆者目前用python比較多,所以想安裝下pySpark,并且在Anaconda2中調(diào)用。
(1)jdk-8u91-windows-x64.exe
(2)spark-1.6.0-bin-hadoop2.6.0.tgz
2.安裝
(1)jdk默認安裝
(2)spark-1.6.0-bin-hadoop2.6.0.tgz先進行解壓。假設(shè)目錄為E:\spark-1.6.0-bin-hadoop2.6.0
(3)配置環(huán)境變量
SPARK_HOME=E:\spark-1.6.0-bin-hadoop2.6.0
Path添加%SPARK_HOME%\bin和%SPARK_HOME%\python
這時,你可以利用打開cmd,輸入pySpark。沒有問題的話,你可以看到下圖
(4)要想在Anaconda2中調(diào)用pySpark,需要加載包。將E:\spark-1.6.0-bin-hadoop2.6.0\python文件夾下pySpark文件夾拷貝到C:\Anaconda2\Lib\site-packages**(注:我的python安裝目錄是這個路徑,可能有的讀者是C:\Python27\Lib\site-packages)**
3.pyCharm wordCount示例
- 新建wordCount.py文件,寫代碼
如果出現(xiàn)如下錯誤:
1. ModuleNotFoundError: No module named 'py4j' conda install py4j 或者pip install py4j2. ImportError: cannot import name accumulators ImportError: No module named py4j.java_gateway
設(shè)置:
import os import sys from operator import addfrom pyspark import SparkContext# Path for spark source folder os.environ['SPARK_HOME']="D:\\ProgramFiles\\spark-1.6.0-bin-hadoop2.6"# Append pyspark to Python Path sys.path.append("D:\\ProgramFiles\\spark-1.6.0-bin-hadoop2.6/python/")if __name__ == "__main__":sc = SparkContext(appName="PythonWordCount")lines = sc.textFile('E:\\testData\\spark\\spark1.6\\people.txt')counts = lines.flatMap(lambda x: x.split(',')) \.map(lambda x: (x, 1)) \.reduceByKey(add)output = counts.collect()for (word, count) in output:print "%s: %i" % (word, count)sc.stop()4.pySpark學(xué)習(xí)地址
(1)http://spark.apache.org/docs/latest/api/python/pyspark.html
(2)在上面解壓的文件夾E:\spark-1.3.0-bin-hadoop2.4\examples\src\main\python中有很多示例代碼,可以進行學(xué)習(xí),本文中的wordCount就是用的上面的代碼(進行了一點點修改)。
注意:
如果你用的python為3.5+版本,接下來這步操作決定我們是否能夠完成配置
1、在D:\spark\spark-2.0.1-bin-hadoop2.7\bin文件夾下找到pyspark文件,然后用notepad++打開。
2、找到export PYSPARK_PYTHON然后把這個地方變成export PYSPARK_PYTHON=python3
3、保存,大功告成。
總結(jié)
以上是生活随笔為你收集整理的pySpark环境搭建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 数据离散化和面元划分
- 下一篇: java深度学习(一)Maven创建一个