R语言实战应用精讲50篇(二十七)-R语言实现随机森林(附R语言代码)
生活随笔
收集整理的這篇文章主要介紹了
R语言实战应用精讲50篇(二十七)-R语言实现随机森林(附R语言代码)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
隨機森林回歸
回歸問題指的是因變量或者被預測變量是連續性變量的情形,比如預測身高體重的具體數值是多少的情形。整個代碼大致可以分為包、數據、模型、預測評估4個部分,接下來逐一解讀。
1、包部分,也就是加載各類包,包括隨機森林包randomForest,數據相關包tidyverse、skimr、DataExplorer,模型評估包caret。
2、數據部分,主要是讀取數據,處理缺失值,轉換變量類型。
3、模型部分。
為了對模型的泛化能力有更準確的評估,先將數據集拆為訓練集和測試集,后續將在訓練集上訓練模型,然后以測試集上的結果評估模型泛化能力。
模型訓練部分及模型結果部分的代碼如下:
# 因變量自變量構建公式 colnames(boston) form_reg <- as.formula( paste0( "medv ~ ", paste(colnames(traindata)[1:13], collapse = " + ") ) ) form_reg# 訓練模型 set.seed(42) fit_rf_reg <- randomForest( form_reg, data = traindata, ntree = 500, # 決策樹棵數 mtry = 6, # 每個節點可供選擇的變量數目 importance = T # 輸出變量重要性 )# 模型概要 fit_rf_reg # ntree參數與error之間的關系圖示 plot(fit_rf_reg, main = "ERROR & TREES")# 變量重要性 importance(fit_rf_reg) varImpPlot(fit_rf_reg, main總結
以上是生活随笔為你收集整理的R语言实战应用精讲50篇(二十七)-R语言实现随机森林(附R语言代码)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 产品经理经验谈50篇(四):数据分析常用
- 下一篇: 【数据可视化应用】华夫饼型柱状图(附R语