仅适用于数据子集的变量

我正在使用此链接上的公共数据集。

这与营销有关,变量(pdays,数字)是指自上次广告系列最后一次联系客户以来经过的天数。

值为999的行表示以前未与客户联系。恐怕将其用于ML算法会导致错误的结果。

我正在考虑将它们设为零。但是我不知道在使用算法之前缩放数据集时如何处理零(我应该考虑零吗?)。

有更好的解决方案吗?

an_day 回答:仅适用于数据子集的变量

我认为将这个值设为0是正确的,但是这里的最佳实践可能是还定义一个新的二进制变量。您可以将此变量命名为“以前未联系过”,对于每次观察到的值999,请将新变量值1分配给新变量,表示以前未联系过客户,否则为0。

本文链接:https://www.f2er.com/3122177.html

大家都在问