當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

day01 PySpark

發布時間：2024/1/1 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 day01 PySpark 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

day01 PySpark

今日內容:

1- Spark的基本內容 (了解其中關于特點需要記錄)
2- Spark的環境搭建(參考部署文檔, 一步步配置成功即可)
3- 基于pycharm完成PySpark的入門案例(掌握-- 理解每一個API有什么作用)

1. Spark的基本內容

1.1. Spark的基本介紹

MapReduce: 分布式計算引擎

分布式計算引擎, 主要用于對大規模的數據進行統計分析的操作, 主要用于批處理(離線處理) ? MR有什么弊端? 1- 執行效率比較低(慢): 整個內部運轉過程不斷進行磁盤和內存的交互, 產生大量IO , 從而影響效率2- 對于迭代計算支持不夠好, 效率比較低: 迭代計算: 當計算操作, 必須多個階段, 而且每個階段之間存在依賴關系, 只有當上一個階段執行完成后, 下一個階段繼續3- MR的代碼相對來說比較底層, 開發難度系數較高

正因為MR存在這樣的一些弊端, 對于市場而言, 希望能夠出現一款效率更高, 對迭代計算支持更加良好, 同時更利于上手一個大規模分布式計算的引擎, 而Spark其實就是在這樣的背景下產生了

Spark是一款大規模分布式的計算引擎, 主要來源于加州大學伯克利分校一幫博士導師產生一篇論文來產出的一款基于內存計算的分布式引擎, 整個Spark核心: RDD(彈性的分布式數據集)

Spark是基于scala(基于Java)語言編寫的

RDD: 彈性分布式數據集, 目前可以理解為就是一個龐大的容器, 整個計算方案計算規則都是在這個RDD中定義處理

Spark目前貢獻給Apache, 稱為Apache旗下頂級開源項目: https://spark.apache.org/4

為什么說Spark執行效率比較高呢?

1- Spark提供了全新數據結構: RDD ? 讓程序員從原來的數據操作者變更規則的定義者, 整個內部實施全部spark程序基于規則自動化完成, 整個計算全部都是在RDD中運行的, 迭代計算會更加方便還可以基于內存進行計算 ? 2- Spark基于線程運行的, 而MR是基于進程運行的, 線程的啟動和銷毀要高于進程的啟動和銷毀

1.2. Spark的發展史

pyspark: 本質上就是一個python的庫, 使用python語言操作spark, 必須要下載pyspark

1.3. Spark的特點

1- 速度快

原因一: Spark基于RDD計算模型進行處理, 整個計算操作可以基于內存來計算, 也可以基于磁盤來計算, 而且可以更好更方便的進行迭代計算, 整個迭代過程匯總, 中間的結果是可以保存在內存中, 內存不足可以保存到磁盤 ? 原因二: Spark是基于線程運行的, 線程的啟動和銷毀要高于進程的啟動和銷毀, 而MR是基于進程的

2- 易用性

原因一: Spark提供多種語言的操作API, 操作Spark不僅僅可以使用python, 也可以使用 scala SQL java R.... ? 原因二: Spark提供的API更加的高階, 意味很多功能方法全部都定義好了, 比如說轉換, 遍歷, 排序 ... 而且不同語言的操作API基本都是一致的,大大降低了程序員學習的成本

3- 通用型

spark提供多組組件,從而應對未來不同的場景 ? SparkCore: Spark核心, 學習Spark基礎, 學習主要點就是RDD其中包含各種操作語言的客戶端,以及RDD維護, 對資源的處理的操作API全部都是在CORE中Spark SQL: ? 最重要的, 必須學會Spark可以使用SQL方式操作Spark, Spark sql組件, 用于支持這種方案, 需要將SQL翻譯為RDD來運行 ? Spark Steaming: spark的流式處理 -- 目前不在涉及, 所有實時部分全部集中在Flink中完成Spark可以支持進行流式計算,也就是實時計算 ? structured Steaming: 結構化的流式處理 ? Spark MLlib: Spark的機器學習庫 ? --- 針對一些特定行業人群主要是用于進行機器學習算法相關的行業使用的庫, 比如說回歸聚類 ....? Spark graphX: Spark的圖計算庫 --- 針對一些特定行業人群主要是用于進行圖計算, 比如說: 地圖中行程規劃 ?

4- 隨處運行

原因一: Spark的計算程序可以運行在不同的資源調度平臺上, 比如 local yarn spark集群還支持一些云上調度環境(mesos...) ? 原因二: Spark可以和大數據生態圈中各種軟件進行集成, 這樣可以更加方便的對接使用

2. Spark的環境安裝

2.0 從教育項目環境恢復到基礎課環境

目標網絡信息:

1- 了解網段 : ip中第三段目前是 192.168.88 ? (所有虛擬機必須都是此網段下)查看虛擬機的ip地址即可: ifconfig 2- 了解此網段下的網關地址: 需要到虛擬機中查看網關(所有的服務器必須指向同一個網關)網關地址查看文件位置: /etc/sysconfig/network-scripts/ifcfg-ens33查看此文件vim /etc/sysconfig/network-scripts/ifcfg-ens33

修改外部的網絡:

1- 修改VMware的網絡編輯器:

2- 修改windows的網絡適配器

3- 即可在fineShell 或者 CRT 或者其他各種連接工具進行連接操作:
4- 連接后, 請測試網絡是否暢通

ping www.baidu.com

2.1. Local模式安裝

local模式主要是用于開發測試環境, 不能作為生產環境

local本質上就是一個JVM進程程序在這個程序中, 運行多個線程來分布式處理

local模式是一種單機模式, 僅適合于小量數據集的處理, 無法處理大規模數據

整個Loca模式Spark環境搭建操作, 請參考<<Spark部署文檔>> 即可

如何退出客戶端程序: 嚴禁使用 ctrl + z (這不是退出, 而是掛載在了后臺)

推薦使用以下的方式嘗試退出客戶端: ctrl + c ctrl+ d :quit !quit quit :exit !exit exit

2.2. PySpark庫安裝

pyspark 是python下的一個庫, 如果需要安裝pyspark, 首先需要先保證有python的環境, 而且當前這個spark版本要求python的環境必須為3以上版本, 而目前虛擬機的版本為 Python2的版本

此時, 需要先安裝python3的版本, 目前在虛擬機中, 需要安裝的python版本為: 3.8.8

此處在安裝python環境的時候, 我們不在采用原有的直接安裝python包的方式, 而且是選擇使用 anaconda (數據科學庫) 原因:1: anaconda是一個數據科學庫, 這個庫包含有python的環境 + python各種進行數據分析的庫, 可以節省一部分關于數據科學庫安裝操作2: anaconda提交一套完善的虛擬環境, 可以基于anaconda構建多套互相隔離的虛擬環境(沙箱環境),可以在不同環境中安裝不同的python的版本, 以及安裝不同的python包

整個Loca模式Spark環境搭建操作, 請參考<<Spark部署文檔>> 即可

注意1:

每一個節點都需要安裝 python的環境, 但是pyspark庫僅需要在node1安裝即可, 因為spark框架內部以及集成了pyspark庫, 提交到spark環境中, 運行的時候, 不需要python環境中pyspark, 此時安裝pyspark僅僅是為了讓pycharm去加載, 然后能夠編寫代碼.以及在本地客戶端上進行直接測試操作

注意2:

如果大家直接使用后續的快照, 那么所有的環境都是已經安裝完成的, 大家可以直接使用即可,但是由于我的失誤, 安裝pyspark庫的時候, 不小心安裝為3.2.0版本, 并不是3.1.2 導致版本不一致,會存在兼容問題, 需要卸載掉pyspark 重新安裝如何卸載? pip uninstall pyspark如何安裝呢?pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark==3.1.2

擴展: anaconda的常用命令

安裝庫: conda install 包名pip install -i 鏡像地址包名卸載庫: conda uninstall 包名pip uninstall 包名設置 anaconda下載的庫的鏡像地址: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --set show_channel_urls yes如何使用anaconda構建虛擬(沙箱)環境:1- 查看當前有那些虛擬環境: conda env list2- 如何創建一個新的虛擬環境 conda create 虛擬環境名稱 python=版本號例如: 創建一個pyspark_env 虛擬環境 conda create -n pyspark_env python=3.83- 如何進入虛擬環境(激活) source activate pyspark_env 或者 conda activate pyspark_env4- 如何退出虛擬環境: deactivate pyspark_env 或者 conda deactivate

2.3 Spark集群模式架構

3. 基于pycharm完成PySpark入門案例

3.0 如何清理遠端環境

接下來, 還需要清理遠端地址:

清理后, 重新配置當前項目使用遠端環境:

全部點擊ok關閉即可

設置自動上傳

3.1 pycharm如何連接遠程環境

背景說明:

一般在企業中, 會存在兩套線上環境, 一套環境是用于開發(測試)環境, 一套環境是用于生產環境, 首先一般都是先在開發測試環境上進行編寫代碼, 并且在此環境上進行測試, 當整個項目全部開發完成后, 需要將其上傳到生產環境, 面向用于使用如果說還是按照之前的本地模式開發方案, 每個人的環境有可能都不一致, 導致整個團隊無法統一一套開發環境進行使用, 從而導致后續在進行測試上線的時候, 出現各種各樣環境問題pycharm提供了一些解決方案: 遠程連接方案, 允許所有的程序員都去連接遠端的測試環境的, 確保大家的環境都是統一, 避免各種環境問題發生, 而且由于連接的遠程環境, 所有在pycharm編寫代碼, 會自動上傳到遠端環境中, 在執行代碼的時候, 相當于是直接在遠端環境上進行執行操作

操作實現: 本次這里配置遠端環境, 指的連接虛擬機中虛擬環境, 可以配置為 base環境, 也可以配置為 pyspark_env虛擬環境, 但是建議配置為 base環境, 因為base環境自帶python包更全面一些

項目名為: sz30_pyspark_parent (強烈建議與我項目名一致)

創建項目后, 設置自動上傳操作

校驗是否有pyspark

ok 后, 就可以在項目上創建子項目進行干活了: 最終項目效果圖

最后, 就可以在 main中編寫今日代碼了, 比如WordCount代碼即可

擴展: 關于pycharm 專業版高級功能

1- 直接連接遠端虛擬機, 進行文件上傳, 下載查看等等操作

2- 可以模擬shell控制臺:

3- 模擬datagrip操作:

3.2 WrodCount代碼實現_local

3.2.1 WrodCount案例流程實現

3.2.2 代碼實現

# 演示 pyspark的入門案例: WordCount from pyspark import SparkContext, SparkConf import osos.environ['SPARK_HOME'] = '/export/server/spark' os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3' os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3' # 快捷鍵: main + 回車 if __name__ == '__main__':print("pyspark的入門案例: WordCount")# 1- 創建Spark核心對象: SparkContextconf = SparkConf().setMaster('local[*]').setAppName('wordCount')sc = SparkContext(conf=conf)# 2- 首先讀取數據# 此處的路徑地址, 不應該這樣寫, 因為后續有可能無法加載到, 建議添加文件協議# 如果讀取本地文件: file:///# 如何讀取HDFS文件: hdfs://node1:8020/# 注意, 由于我們采用連接遠程環境的方案, 代碼的執行最終是運行在遠端環境, 所以說此處所說的本地文件指定遠程環境中本地文件rdd_init = sc.textFile('file:///export/data/workspace/sz30_pyspark_parent/_01_pyspark_base/data/words.txt')# 此處讀的過程中, 采用一行行的讀取, 將每一行收集回來,放置到一個列表中"""['hello world hello hadoop','hadoop hello world hive','hive hive hadoop','hadoop hadoop hive','hive hadoop hello hello','sqoop hive hadoop hello hello','hello world hello hadoop','hadoop hello world hive','hive hive hadoop' ]"""# 3- 對每一行的數據執行切割操作,轉換為一個個列表# 一對一的轉換操作: map#rdd_map = rdd_init.map(lambda line: line.split())# 預估一下結果:"""[['hello,world,hello,hadoop'],['hadoop,hello,world,hive'],['hive,hive,hadoop'] ] 給我的感覺就是比較胖大的列表套了一個小的列表希望結果: 扁平化處理 [hello,world,hello,hadoop,hadoop,hello,world,hive,hive,hive,hadoop ]"""# map轉換增強版, 用于進行一對多的轉換操作, 相當于先執行map操作. 然后執行flat(扁平化操作)rdd_flatmap = rdd_init.flatMap(lambda line: line.split())# 4- 將每一個單詞轉換為 (單詞,1)rdd_map = rdd_flatmap.map(lambda word:(word,1))# 期望結果:"""[(hello,1),(world,1),(hello,1),(hadoop,1),(hadoop,1)] """# 5- 根據key進行分組聚合統計操作rdd_res = rdd_map.reduceByKey(lambda agg,curr: agg+curr)print(rdd_res.collect())

可能出現的錯誤:

無法加載到java_home 原因: 目前pycharm連接遠程的python環境, 執行python的代碼, 最終是將代碼運行在遠端環境的, 但是在遠端環境中, 可能存在多個python環境, 以及內部加載的 .bashrc中環境信息, 但是這個環境中壓根就沒有 JAVA_HOME 安裝pyspark庫同步安裝了另一個 py4j的庫, spark程序運行, 需要將python的代碼轉換為java代碼從而運行(只有其中一部分)解決方案? 需要在bashrc中配置相關的環境信息第一步: 需要修改虛擬機中 .bashrc文件: vim ~/.bashrc在文件中, 添加以下兩行內容:export JAVA_HOME=/export/server/jdk1.8.0_241/export PYSPARK_PYTHON=/root/anaconda3/bin/python3第二步: 重新加載bashrcsource ~/.bashrc第三步: 需要在代碼中添加以下內容,用于鎖定遠程版本 (放置在mian函數的上面)os.environ['SPARK_HOME'] = '/export/server/spark'os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

3.3 [擴展] 部署windows開發環境(不需要做)

1- 第一步: 需要安裝Python 環境 , 建議使用anaconda 來安裝即可
2- 第二步: 在Python安裝pySpark

執行:pip install pyspark==3.1.2

3- 第三步: 配置 hadoop的環境

首先, 需要將 hadoop-3.3.0 放置到一個沒有中文, 沒有空格的目錄下接著將目錄中bin目錄下有一個 hadoop.dll文件, 放置在c:/windows/system32 目錄下 (配置后, 需要重啟電腦)最后, 將這個hadoop3.3.0 配置到環境變量中:

配置后, 一定一直點確定退出, 否則就白配置了....

4-第四步: 配置spark本地環境

首先, 需要將 spark-3.1.2... 放置到一個沒有中文, 沒有空格的目錄下最后, 將這個 spark-3.1.2... 配置到環境變量中:

配置后, 一定一直點確定退出, 否則就白配置了....

5-配置pySpark環境

需要修改環境變量

配置后, 一定一直點確定退出, 否則就白配置了....

6- 配置 jdk的環境:

首先: 需要將 jdk1.8 放置在一個沒有中文, 沒有空格的目錄下接著:要在環境變量中配置 JAVA_HOME, 并在path設置

總結

以上是生活随笔為你收集整理的day01 PySpark的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

pyspark

上一篇： C++ this指针
下一篇：【C语言】qsort函数的使用和模拟实现

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

day01 PySpark

day01 PySpark

1. Spark的基本內容

1.1. Spark的基本介紹

1.2. Spark的發展史

1.3. Spark的特點

2. Spark的環境安裝

2.0 從教育項目環境恢復到基礎課環境

2.1. Local模式安裝

2.2. PySpark庫安裝

2.3 Spark集群模式架構

3. 基于pycharm完成PySpark入門案例

3.0 如何清理遠端環境

3.1 pycharm如何連接遠程環境

3.2 WrodCount代碼實現_local

3.3 [擴展] 部署windows開發環境(不需要做)

總結