数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                pyspark不是所有的代碼都在spark環境應用,可以將一些主要的運算單元切到spark環境運算完成,然后輸出運算結果到本地,最后在本地運行一些簡單的數據處理邏輯。
pyspark主要的功能為:
1)可以直接進行機器學習的訓練,其中內嵌了機器學習的算法,也就是遇到算法類的運算可以直接調用對應的函數,將運算鋪在spark上訓練。
2)有一些內嵌的常規函數,這些函數可以在spark環境下處理完成對應的運算,然后將運算結果呈現在本地。
個人理解pyspark是本地環境和spark環境的結合用法,spark中的函數是打開本地環境到spark環境的大門,本地的數據和邏輯按照spark運算規則整理好之后,通過spark函數推到spark環境中完成運算。
所以關鍵在于有多少計算方式是可以放在spark環境計算的,有多少常用的pyspark函數;
pyspark原理介紹
原理圖如下:
上圖中,python中調用sparkcontext。
sparkcontext會通過py4j啟動jvm中的javasparkcontext,javasparkcontext再將數據邏輯推到集群中完成運算。
總結
以上是生活随笔為你收集整理的数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 战略分析思路——商业模式及沙盘推演
- 下一篇: 全量增长模型-指标体系的构建及应用实战案
