如何在R中自动分组分类变量

2024-05-17 • 问答

我尝试查看目标上的变量（例如居住国或婚姻状况）之间的关系（如果存在），即付款或不付款。我需要一个标准（以及如何实现）来定义垃圾箱/组的数量以及如何组合类别。

我会举一个例子。

#Non-payment will be 1 in ny target. I use probs just because its an example.
library(dplyr)
df <- data.frame(target=sample(c(0,1),prob=c(0.9,0.1),replace=TRUE,100),status=sample(c("married","single","divorced","widower","defacto couple"),prob=c(0.5,0.2,0.1,100))

我将计算每种状态的不良数和不良率：

gp<- df %>% 
  group_by(status) %>%
  dplyr::summarise(default = sum(target),tot=n(),prob=default/tot)
gp2 <- merge(df,gp,by="status") %>% arrange(prob)

现在，看看坏人比率，我怎么知道（例如）“婚姻和离婚”是否应该在同一个垃圾箱中？我虽然想尝试对它进行排名，并可能进行Logistic回归，但是我真的不知道这是否行得通。

我知道我的例子并不完美，我的英语也不太好，但是所有帮助都值得欢迎。

如何在R中自动分组分类变量

jsyuanleil 回答：如何在R中自动分组分类变量

大家都在问