我尝试查看目标上的变量(例如居住国或婚姻状况)之间的关系(如果存在),即付款或不付款。我需要一个标准(以及如何实现)来定义垃圾箱/组的数量以及如何组合类别。
我会举一个例子。
#Non-payment will be 1 in ny target. I use probs just because its an example.
library(dplyr)
df <- data.frame(target=sample(c(0,1),prob=c(0.9,0.1),replace=TRUE,100),status=sample(c("married","single","divorced","widower","defacto couple"),prob=c(0.5,0.2,0.1,100))
我将计算每种状态的不良数和不良率:
gp<- df %>%
group_by(status) %>%
dplyr::summarise(default = sum(target),tot=n(),prob=default/tot)
gp2 <- merge(df,gp,by="status") %>% arrange(prob)
现在,看看坏人比率,我怎么知道(例如)“婚姻和离婚”是否应该在同一个垃圾箱中? 我虽然想尝试对它进行排名,并可能进行Logistic回归,但是我真的不知道这是否行得通。
我知道我的例子并不完美,我的英语也不太好,但是所有帮助都值得欢迎。