python spark视频_Spark2.x+Python大数据机器学习视频课程
本課程系統(tǒng)講解如何在Spark2.0上高效運(yùn)用Python來處理數(shù)據(jù)并建立機(jī)器學(xué)習(xí)模型,幫助讀者開發(fā)并部署高效可拓展的實時Spark解決方案。
第一章、搭建Spark 2.x+Python開發(fā)環(huán)境及基本開發(fā)入門
1、快速環(huán)境搭建:導(dǎo)入Windows7虛擬機(jī)至VMWARE及啟動系統(tǒng)和遠(yuǎn)程桌面連接
2、快速環(huán)境搭建:Windows系統(tǒng)如何安裝pyspark模塊到Anaconda及啟動PyCharm了解Spark MLlib機(jī)器學(xué)習(xí)庫源碼及走讀
3、快速環(huán)境搭建:使用PyCharm開發(fā)Spark程序(讀取文本數(shù)據(jù)封裝RDD)
4、PySpark SQL快速開發(fā):結(jié)構(gòu)化海量數(shù)據(jù)處理框架SparkSQL介紹、DataFrame概述及分析數(shù)據(jù)兩種方式
5、PySpark SQL快速開發(fā):使用SparkSession讀取文本數(shù)據(jù)分析及CSV格式數(shù)據(jù)分析(封裝DataFrame分布式數(shù)據(jù)集)
6、PySpark SQL快速開發(fā):基于Jupyter Notebook讀取航空航天數(shù)據(jù)、使用DSL分析
7、PySpark SQL快速開發(fā):使用DSL分析航天航空數(shù)據(jù)及如何將DataFrame轉(zhuǎn)換為Pandas中dataframe
第二章、Python Spark MLlib 創(chuàng)建推薦引擎(ALS算法篇)
8、推薦系統(tǒng)幾大分類(不同數(shù)據(jù)、不同算法)概述、以亞馬遜和JD為例查看推薦(檢索物品后推薦)及推薦系統(tǒng)預(yù)測(評分和行為)
9、協(xié)同過濾推薦算法CF核心思想、算法數(shù)據(jù)(用戶對物品的評價)及矩陣分解兩種方式(SVD和ALS算法)
10、CF的兩種推薦方式(基于用戶推薦和基于物品推薦)、計算用戶或物品相似度常見四種方式及Spark MLlib中ALS算法核心(數(shù)據(jù)封裝、算法超參數(shù))
11、推薦數(shù)據(jù)集:電影評分?jǐn)?shù)據(jù)、通過源碼剖析Spark MLlib中協(xié)同過濾算法實現(xiàn)類(Rating、ALS和MatrixFactorizationModel)
12、使用Jupyter Notebook開發(fā)電影推薦:讀取MovieLens評分?jǐn)?shù)據(jù)、組合特征、訓(xùn)練模型、預(yù)測評分和為用戶或電影進(jìn)行Top10推薦
第三章、Python Spark MLlib 創(chuàng)建推薦引擎(深入實踐篇)
13、回顧綜述Spark MLlib中支持推薦系統(tǒng)中不同算法(內(nèi)容推薦Word2Vector、關(guān)聯(lián)規(guī)則FP-Growth和協(xié)同過濾ALS)
14、針對電影推薦開發(fā)優(yōu)化:將數(shù)據(jù)集劃分為訓(xùn)練和測試、計算模型評估指標(biāo)MSE和RMSE值
15、針對電影推薦開發(fā)優(yōu)化:定義函數(shù)封裝模型評估(依據(jù)傳遞模型和測試數(shù)據(jù)集)
16、針對電影推薦開發(fā)優(yōu)化:使用多層嵌套FOR循環(huán)設(shè)置不同超參數(shù)值訓(xùn)練和評估模型,獲取最佳模型
17、針對電影推薦開發(fā)優(yōu)化:保存加載模型、機(jī)器學(xué)習(xí)簡易開發(fā)流程和使用PyCharm開發(fā)封裝模型訓(xùn)練與保存
18、針對電影推薦開發(fā)優(yōu)化:依據(jù)輸入用戶或物品進(jìn)行相關(guān)推薦(加載離線訓(xùn)練完成的模型)
第四章、Python Spark MLlib 構(gòu)建分類模型
19、綜述Spark MLlib中實現(xiàn)常見分類算法庫(二分類和多分類)及查看實現(xiàn)源碼
20、監(jiān)督學(xué)習(xí)算法數(shù)據(jù)格式標(biāo)簽向量LabelPoint及Kaggle競賽StumbleUpon數(shù)據(jù)集說明(預(yù)測網(wǎng)址是否長青或短暫)
21、構(gòu)建分類系統(tǒng)之?dāng)?shù)據(jù)調(diào)研、數(shù)據(jù)過濾轉(zhuǎn)換和類別特征提取方式1-of-K詳解
22、構(gòu)建分類系統(tǒng)之分別定義函數(shù)提取類別label和轉(zhuǎn)換類別數(shù)據(jù)提取特征features
23、構(gòu)建分類系統(tǒng)之封裝數(shù)據(jù)、劃分?jǐn)?shù)據(jù)集、使用決策樹分類及二分類評估指標(biāo)PR和ROC
24、構(gòu)建分類系統(tǒng)之使用集成學(xué)習(xí)算法隨機(jī)森林RF訓(xùn)練模型和評估性能
25、構(gòu)建分類系統(tǒng)之使用梯度提升算法GBT訓(xùn)練模型和評估性能
26、構(gòu)建分類系統(tǒng)之分別使用樸素貝葉斯、支持向量機(jī)SVM和邏輯回歸算法訓(xùn)練模型與預(yù)測
第五章、Python Spark MLlib 構(gòu)建回歸分析
27、Spark MLlib中回歸算法實現(xiàn)庫(LR、DT等)、過擬合(L1和L2正則化)和閱讀算法庫源碼
28、BikeSharing數(shù)據(jù)集調(diào)研、讀取數(shù)據(jù)并編寫函數(shù)提取特征和標(biāo)簽
29、構(gòu)建回歸模型之劃分?jǐn)?shù)據(jù)集、使用決策樹回歸算法訓(xùn)練模型及定義函數(shù)評估模型
30、構(gòu)建回歸模型之使用隨機(jī)森林RF和梯度提升GBT回歸算法訓(xùn)練模型及評估模型
31、構(gòu)建回歸模型之使用LinearRegressionWithSGD訓(xùn)練模型及引出要轉(zhuǎn)換類別特征數(shù)據(jù)問題
第六章、Spark ML Pipeline 機(jī)器學(xué)習(xí)流程回歸分析
32、回顧復(fù)習(xí)Spark MLlib中算法(分類、回歸和推薦)及基于DataFrame ML幾個核心概念剖析
33、_查看Spark ML機(jī)器學(xué)習(xí)庫源碼及SparkSession讀取電影評分?jǐn)?shù)據(jù)封裝DataFrame
34、基于DataFrame 協(xié)同過濾算法ALS進(jìn)行電影推薦模型訓(xùn)練和相關(guān)預(yù)測
35、基于DataFrame 決策樹回歸算法DecisionTreeRegressor訓(xùn)練模型(VectorAssembler特征組合)和評估(RegressionEvaluator)
36、使用VectorIndexer類別特征轉(zhuǎn)換及使用TrainValidationSplit進(jìn)行超參數(shù)調(diào)整獲取最佳模型
37、使用交叉驗證CrossValidator方式訓(xùn)練評估模型找到最佳模型
38、Pipeline管道使用說明、結(jié)合共享單車出租預(yù)測進(jìn)行構(gòu)建Pipeline Model模型和預(yù)測
總結(jié)
以上是生活随笔為你收集整理的python spark视频_Spark2.x+Python大数据机器学习视频课程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 将宽度赋给高度_人生应知长度、懂宽度、有
- 下一篇: Excel怎么加密表格区域(excel表