我正在使用mlr包的resample()
函数对随机森林模型进行4000次子采样(下面的代码段)。
如您所见,要在resample()
内创建随机森林模型,我正在使用randomForest包。
对于每个子样本迭代,我想获得随机森林模型的重要性结果(所有类的准确性均值下降)。我现在可以得到的重要性指标是基尼系数的平均下降。
我从mlr的源代码中可以看到,makeRLearner.classif.randomForest中的getFeatureImportanceLearner.classif.randomForest()
函数(第69行)使用randomForest::importance()
函数(第83行)从得到的对象中获取重要性值randomForest
class。但是正如您从源代码(第73行)中看到的那样,它使用2L作为默认值。我希望它使用1L(第75行)作为值(平均精度降低)。
如何将2L的值传递给resample()
函数(下面代码中的“ extract = getFeatureImportance”行),以便getFeatureImportanceLearner.classif.randomForest()
函数获取该值并设置ctrl$type = 2L
(第73行)?
rf_task <- makeclassifTask(id = 'task',data = data[,-1],target = 'target_var',positive = 'positive_var')
rf_learner <- makeLearner('classif.randomForest',id = 'random forest',par.vals = list(ntree = 1000,importance = TRUE),predict.type = 'prob')
base_subsample_instance <- makeResampleInstance(rf_boot_desc,rf_task)
rf_subsample_result <- resample(rf_learner,rf_task,base_subsample_instance,extract = getFeatureImportance,measures = list(acc,auc,tpr,tnr,ppv,npv,f1,brier))
我的解决方案:mlr软件包的下载源代码。将源文件行73更改为1L(https://github.com/mlr-org/mlr/blob/v2.15.0/R/RLearner_classif_randomForest.R)。从命令行安装程序包并使用它。不是最佳解决方案,而是解决方案。