PySaprk:处理数据中的高基数

我正在努力确定来自健康保险领域的重复索赔。我的数据高度不平衡-索赔总数中只有2%是 1亿条记录中的重复项。此数据集的列很少,唯一值的数量超过 15万。我知道,在这里热编码不是一个好的选择,我进行了数值计数编码(用实际发生的次数替换实际值),这对模型的性能有何影响? 在PySaprk中是否有更好的方法来处理高基数? 任何建议将不胜感激。

aaassdqw 回答:PySaprk:处理数据中的高基数

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3164190.html

大家都在问