假设我训练了一个模型来检测流失,并且数据集具有以下功能(非常简化)。我有品牌和女性,她们已经在线或通过邮寄方式注册了。
ID source Gender Churn
1 Online M 1
2 Post M 1
3 Online M 1
4 Online F 0
5 Post F 0
然后我用熊猫get_dummies
:
ID source_online source_post Gender_M Gender_F
1 1 0 1 0
2 0 1 1 0
3 1 0 1 0
4 1 0 0 1
5 0 1 0 1
现在,假设我使用StandardScaler
,然后fit
在此数据上建立模型并对其进行训练。
几天后,我从相同的数据库和架构获得了新数据,我不得不预测用户流失率。变量完全相同,只是这次只有男性,他们只在线注册。
ID source Gender
1 Online M
2 Online M
3 Online M
我申请get_dummies
:
ID source_Online Gender_M
0 1 1 1
1 2 1 1
2 3 1 1
首先,具有从训练集中学习到的设置的StandardScaler
无法处理这些看不见的数据,因为它缺少了一些dummy variables
。当然,由于相同的原因,它不适用于经过训练的模型。
有什么办法解决吗?
我目前有数百条与此问题相关的记录,因为它们缺少训练集中存在的变量内的单个记录。 (在这个简化的示例中,我们缺少女性)