推荐专题：

700字范文 > 随机森林算法（Random Forest）R语言实现

随机森林算法（Random Forest）R语言实现

时间：2023-12-30 11:06:59

相关推荐

随机森林算法（Random Forest）R语言实现

随机森林

1. 使用Boston数据集进行随机森林模型构建2. 数据集划分3.构建自变量与因变量之间的公式4. 模型训练5. 寻找合适的ntree6. 查看变量重要性并绘图展示7. 偏依赖图:Partial Dependence Plot（PDP图）8. 训练集预测结果

1. 使用Boston数据集进行随机森林模型构建

library(rio)library(ggplot2)library(magrittr)library(randomForest)library(tidyverse)library(skimr)library(DataExplorer)library(caret)library(varSelRF)library(pdp)library(iml)data("boston")as.data.frame(boston)skim(boston)#数据鸟瞰plot_missing(boston)#数据缺失#na.roughfix() #填补缺失hist(boston$lstat,breaks = 50)

数据展示：

2. 数据集划分

####################################### 1.数据集划分set.seed(123)trains <- createDataPartition(y = boston$lstat,p=0.70,list = F)traindata <- boston[trains,]testdata <- boston[-trains,]

3.构建自变量与因变量之间的公式

#因变量自变量构建公式colnames(boston)form_reg <- as.formula(paste0("lstat ~",paste(colnames(traindata)[1:15],collapse = "+")))form_reg

构建的公式：

4. 模型训练

#### 2.1模型mtry的最优选取，mry=12 % Var explained最佳#默认情况下数据集变量个数的二次方根（分类模型）或1/3（预测模型）set.seed(123)n <- ncol(boston)-5errRate <- c(1) #设置模型误判率向量初始值for (i in 1:n) {rf_train <- randomForest(form_reg, data = traindata,ntree = 1000,#决策树的棵树p =0.8,mtry = i,#每个节点可供选择的变量数目importance = T #输出变量的重要性)errRate[i] <- mean(rf_train$mse)print(rf_train)}m= which.min(errRate) print(m)

结果：

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 1

Mean of squared residuals: 13.35016% Var explained: 72.5

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 2

Mean of squared residuals: 11.0119% Var explained: 77.31

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 3

Mean of squared residuals: 10.51724% Var explained: 78.33

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 4

Mean of squared residuals: 10.41254% Var explained: 78.55

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 5

Mean of squared residuals: 10.335% Var explained: 78.71

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 6

Mean of squared residuals: 10.22917% Var explained: 78.93

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 7

Mean of squared residuals: 10.25744% Var explained: 78.87

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 8

Mean of squared residuals: 10.11666% Var explained: 79.16

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 9

Mean of squared residuals: 10.09725% Var explained: 79.2

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 10

Mean of squared residuals: 10.09231% Var explained: 79.21

Call:

randomForest(formula = form_reg, data = traindata, ntree = 1000, p = 0.8, mtry = i, importance = T)

Type of random forest: regression

Number of trees: 1000

No. of variables tried at each split: 11

Mean of squared residuals: 10.12222% Var explained: 79.15

结果显示mtry为11误差最小，精度最高

5. 寻找合适的ntree

#### 寻找合适的ntreeset.seed(123)rf_train<-randomForest(form_reg,data=traindata,mtry=11,ntree=500,importance = T,proximity=TRUE)plot(rf_train,main = "ERROR & TREES") #绘制模型误差与决策树数量关系图

运行结果：

6. 查看变量重要性并绘图展示

#### 变量重要性importance<-importance(rf_train) ##### 绘图法1barplot(rf_train$importance[,1],main="输入变量重要性测度指标柱形图")box()

重要性展示：

##### 绘图法2varImpPlot(rf_train,main = "Variable Importance plot")varImpPlot(rf_train,main = "Variable Importance plot",type = 1)varImpPlot(rf_train,sort=TRUE,n.var=nrow(rf_train$importance),main = "Variable Importance plot",type = 2) # 基尼系数hist(treesize(rf_train)) #展示随机森林模型中每棵决策树的节点数max(treesize(rf_train));min(treesize(rf_train))

“%IncMSE”即increase in mean squared error，通过对每一个预测变量随机赋值，如果该预测变量更为重要，那么其值被随机替换后模型预测的误差会增大。“IncNodePurity”即increase in node purity，通过残差平方和来度量，代表了每个变量对分类树每个节点上观测值的异质性的影响，从而比较变量的重要性。两个指示值均是判断预测变量重要性的指标，均是值越大表示该变量的重要性越大，但分别基于两者的重要性排名存在一定的差异。

7. 偏依赖图:Partial Dependence Plot（PDP图）

部分依赖图可以显示目标和特征之间的关系是线性的、单调的还是更复杂的

缺点：部分依赖函数中现实的最大特征数是两个，这不是PDP的错，而是2维表示（纸或屏幕）的错，是我们无法想象超过3维的错。

partialPlot(x = rf_train,pred.data = traindata,x.var = cmedv )

PDP图：

rf_train %>%partial(pred.var = c("cmedv", "age"), chull = TRUE, progress = TRUE) %>%autoplot(contour = TRUE, legend.title = "SOS",option = "B", direction = -1) + theme_bw()+theme(text=element_text(size=12, family="serif"))

交互结果展示：

#预测与指标的关系散点图plot(lstat ~ cmedv, data = traindata)

8. 训练集预测结果

#图示训练集预测结果plot(x = traindata$lstat,y = trainpred,xlab = "实际值",ylab = "预测值",main = "随机森林-实际值与预测值比较")trainlinmod <- lm(trainpred ~ traindata$lstat) #拟合回归模型abline(trainlinmod, col = "blue",lwd =2.5, lty = "solid")abline(a = 0,b = 1, col = "red",lwd =2.5, lty = "dashed")legend("topleft",legend = c("Mode1","Base"),col = c("blue","red"),lwd = 2.5,lty = c("solid","dashed"))

#测试集预测结果testpred <- predict(rf_train,newdata = testdata)#测试集预测误差结果defaultSummary(data.frame(obs = testdata$lstat,pred = testpred))#图示测试集结果plot(x = testdata$lstat,y = testpred,xlab = "实际值",ylab = "预测值",main = "随机森林-实际值与预测值比较")testlinmod <- lm(testpred ~ testdata$lstat)abline(testlinmod, col = "blue",lwd =2.5, lty = "solid")abline(a = 0,b = 1, col = "red",lwd =2.5, lty = "dashed")legend("topleft",legend = c("Mode1","Base"),col = c("blue","red"),lwd = 2.5,lty = c("solid","dashed"))

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

随机森林算法（Random Forest）Python实现

2020-03-14

随机森林算法（Random Forest）原理分析及Python实现

2022-12-21

详细介绍机器学习算法——随机森林（Random Forest）算法的理论和实现方法

2024-06-06

Python:实现random forest regressor随机森林回归器算法(附完整源码)

2022-11-30

扩展阅读

: 2024年@随机调制 random modulation英语短句例句大全

: 基础数据结构与算法之11种排序算法（C语言实现）

: 每日一书：《数据结构与算法：Python语言实现》PDF 中文超清版

: 产品分析：Forest 专注森林

: 《迷失森林》（The Forest）来感受下黑森林的恐怖

: 世界森林日英语日记：World Forest Day

最近发布

初三写人作文 :触动心灵的风景700字

2024-06-17

有关心怀感恩的作文700字汇编7篇

2024-06-17

高三写景作文700字：杭州旅行之遇见自己

2024-06-17

初三作文700字-为了信念

2024-06-17

失了棱角却不失价值作文700字

2024-06-17

朝花夕拾读后感700字七年级作文

2024-06-17

推荐专题

理解作文700字坚强作文700字我的妈妈700字作文作文我的老师700字出游作文700字我的烦恼初中700字作文关于善良的作文700字走进大自然作文700字家乡的变化作文700字 700字写人作文军训作文700字初一感恩母亲作文700字给予作文700字感恩父母演讲稿700字周末生活随笔700字