sklearn集成的自定义random_sampling

我需要在scikit-learn中编写一个自定义random_selection(用于特征的随机选择,即“ max_feature”和训练数据的子集,即“ subsample”),与sklearn.ensemble.RandomForestClassifier和GradientBoostingClassifier一起使用。有人可以指出一些示例/文档/讨论等吗?想法是使用以下方法中的一列(不依赖于Y)进行分层 在RandomForestClassifier中训练装袋数据

noa37688 回答:sklearn集成的自定义random_sampling

似乎您在这里有两个主要选择:

  1. 您可以手动遍历学习者。速度会非常慢,但是您可以手动输入采样数据。

或2。您可以按类别比例的倒数对样本加权(例如,如果您的数据像[a,a,b,b,b],则样本权重将为[5/2,5/2 ,5 / 3、5 / 3、5 / 3]之类的方法。这样,每个变量值对损失的总贡献就相等,您可以通过将权重输入model.fit(X,y,sample_weight=sample_weight)

本文链接:https://www.f2er.com/2411660.html

大家都在问