如何将scikit学习模型应用于不同形状的看不见的数据？弄傻瓜导致问题

2024-05-18 • 问答

假设我训练了一个模型来检测流失，并且数据集具有以下功能（非常简化）。我有品牌和女性，她们已经在线或通过邮寄方式注册了。

ID  source  Gender  Churn
1   Online  M       1
2   Post    M       1
3   Online  M       1
4   Online  F       0
5   Post    F       0

然后我用熊猫get_dummies：

ID  source_online   source_post Gender_M    Gender_F
1       1               0          1          0
2       0               1          1          0
3       1               0          1          0
4       1               0          0          1
5       0               1          0          1

现在，假设我使用StandardScaler，然后fit在此数据上建立模型并对其进行训练。

几天后，我从相同的数据库和架构获得了新数据，我不得不预测用户流失率。变量完全相同，只是这次只有男性，他们只在线注册。

ID  source  Gender
1   Online  M
2   Online  M
3   Online  M

我申请get_dummies：

   ID  source_Online  Gender_M
0   1              1         1
1   2              1         1
2   3              1         1

首先，具有从训练集中学习到的设置的StandardScaler无法处理这些看不见的数据，因为它缺少了一些dummy variables。当然，由于相同的原因，它不适用于经过训练的模型。

有什么办法解决吗？

我目前有数百条与此问题相关的记录，因为它们缺少训练集中存在的变量内的单个记录。（在这个简化的示例中，我们缺少女性）

如何将scikit学习模型应用于不同形状的看不见的数据？弄傻瓜导致问题

worinima1 回答：如何将scikit学习模型应用于不同形状的看不见的数据？弄傻瓜导致问题

大家都在问