我目前正在解决不平衡数据集的分类问题(约占少数群体的17%)。 我使用来自sklearn的分层k倍拆分(分层混洗拆分)拆分数据,然后使用ADASYN对火车数据进行过采样,并将经过过采样的火车数据(过采样后大约250k +实例)拟合到梯度提升分类器。过采样会对性能产生巨大影响,召回率从7%提高到75%。这可能吗?如果没有,有什么想法会出问题吗?
abc12345687 回答:Python过采样性能提高
暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com