我在R中使用rpart在数据上构建决策树。当我看到变量重要性列表时,我看到了一些真正重要的变量(按照变量重要性),这些变量没有出现在最终决策树中。
我搜索了此内容,发现了此讨论 Why variable importance is not reflected in variable actually used in tree construction?
这表示实际上很重要但未出现在决策树中的变量是用于处理数据中缺失值的替代变量。但是问题是我的数据没有缺失值。因此,任何人都可以帮助我理解为什么我看到一些实际上很重要但没有出现在决策树中的变量。
我无法发布数据,但是我正在下面使用它来训练数据。
mytree <- rpart(
repeat_flag ~ .,data = dat_f,method = "class",control = rpart.control(minsplit = 1000,minbucket = 1000,cp = 0.0001)
)