PyCaret:又一个神仙ML库
PyCaret這個開源工具,用起來可謂簡單至極,少量代碼就可以搭建各種端到端的模型,廢話不多說,直接看實戰。
PyCaret安裝:
先用PyCaret自帶的'insurance'數據集作為例子,我們看下數據:
數據預處理
該步驟是使用PyCaret構建任何模型強制要做的一步:
執行完上述代碼后,不僅自動推斷了各個特征的類型,還問你是否推斷正確。
直接continue,會彈出setup的分析結果,如下圖所示:
從上圖紅框中,我們驚喜的發現連訓練集測試集都幫忙我們拆分好了,并行已經幫我們把訓練數據shuffle好了。當然我們可以自定義拆分比例,如下所示:
setup(data = insurance, target = 'charges', train_size = 0.5)也可以對數據進行scale:
setup(data = pokemon, target = 'Legendary', normalize = True)會默認幫你把連續值,離散值的缺失值處理掉:
可以對數據進行分桶,只需要加上參數bin_numeric_features :
setup(data = income, target = 'income >50K', bin_numeric_features = ['age'])需要進行特征篩選的話,也只需要加一個參數feature_selection = True:
setup(data = diabetes, target = 'Class variable', feature_selection = True)同樣,一個參數連異常值都幫你移除了remove_outliers = True:
setup(data = insurance, target = 'charges', remove_outliers = True)還有各種各樣的預處理操作,大家可以參考官方文檔。
https://pycaret.org/preprocessing/
模型訓練
直接看下我們可以用哪些模型:
# check all the available models models()真的是應有盡有,大部分煉丹師其實只看到了最下面3個,xgb,lgb,cbt。
模型訓練
那么我們就用xgb跑下吧:
# train decision tree dt = create_model('xgboost')然后啥都不用寫,測試集上各個mertic就顯示出來了:
模型融合是大家最常用的,也只需要一行代碼:
# train multiple models multiple_models = [create_model(i) for i in ['dt', 'lr', 'xgboost']]要比較各個模型,也只需要一行代碼:
# compare all models best_model = compare_models()模型預估:
predictions = predict_model(best_model, data = data2)所以,大家數數看,我們一共才寫了幾行代碼,就把模型預處理、訓練、驗證、融合、預估全完成了?做表格類數據模型真的是太方便了。
PyCaret!又一個神仙ML庫!總結
以上是生活随笔為你收集整理的PyCaret:又一个神仙ML库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 内容流推荐中的个性化标题生成框架
- 下一篇: 漫谈特征缩放