如何将scikit学习模型应用于不同形状的看不见的数据?弄傻瓜导致问题

假设我训练了一个模型来检测流失,并且数据集具有以下功能(非常简化)。我有品牌和女性,她们已经在线或通过邮寄方式注册了。

ID  source  Gender  Churn
1   Online  M       1
2   Post    M       1
3   Online  M       1
4   Online  F       0
5   Post    F       0

然后我用熊猫get_dummies

ID  source_online   source_post Gender_M    Gender_F
1       1               0          1          0
2       0               1          1          0
3       1               0          1          0
4       1               0          0          1
5       0               1          0          1

现在,假设我使用StandardScaler,然后fit在此数据上建立模型并对其进行训练。

几天后,我从相同的数据库和架构获得了新数据,我不得不预测用户流失率。变量完全相同,只是这次只有男性,他们只在线注册。

ID  source  Gender
1   Online  M
2   Online  M
3   Online  M

我申请get_dummies

   ID  source_Online  Gender_M
0   1              1         1
1   2              1         1
2   3              1         1

首先,具有从训练集中学习到的设置的StandardScaler无法处理这些看不见的数据,因为它缺少了一些dummy variables。当然,由于相同的原因,它不适用于经过训练的模型。

有什么办法解决吗?

我目前有数百条与此问题相关的记录,因为它们缺少训练集中存在的变量内的单个记录。 (在这个简化的示例中,我们缺少女性)

worinima1 回答:如何将scikit学习模型应用于不同形状的看不见的数据?弄傻瓜导致问题

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3063535.html

大家都在问