如何在R中自动分组分类变量

我尝试查看目标上的变量(例如居住国或婚姻状况)之间的关系(如果存在),即付款或不付款。我需要一个标准(以及如何实现)来定义垃圾箱/组的数量以及如何组合类别。

我会举一个例子。

#Non-payment will be 1 in ny target. I use probs just because its an example.
library(dplyr)
df <- data.frame(target=sample(c(0,1),prob=c(0.9,0.1),replace=TRUE,100),status=sample(c("married","single","divorced","widower","defacto couple"),prob=c(0.5,0.2,0.1,100))

我将计算每种状态的不良数和不良率:

gp<- df %>% 
  group_by(status) %>%
  dplyr::summarise(default = sum(target),tot=n(),prob=default/tot)
gp2 <- merge(df,gp,by="status") %>% arrange(prob)

现在,看看坏人比率,我怎么知道(例如)“婚姻和离婚”是否应该在同一个垃圾箱中? 我虽然想尝试对它进行排名,并可能进行Logistic回归,但是我真的不知道这是否行得通。

我知道我的例子并不完美,我的英语也不太好,但是所有帮助都值得欢迎。

jsyuanleil 回答:如何在R中自动分组分类变量

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3080000.html

大家都在问