使用K-Means群集时，如果群集中只有一个数据点，该怎么办？

2024-05-20 • 问答

我正在使用等分的K均值，它使用k = 2的k均值，并且在1个群集中仅遇到1个数据点。这是否意味着K-Means进程应该因为已经达到收敛而停止，或者我应该使用新值重新开始算法过程？

1元素簇在脏数据上以k均值出现的频率很高。

因为k均值使平方误差最小化，所以将异常点分配给它们自己的聚类可得出关于平方误差目标的“最佳”结果。因此，这通常是的正确结果-并不是用户真正想要的。通常，用户更喜欢非平方优化（例如，使用PAM），或者具有不属于群集的“噪声”点概念的方法（例如，DBSCAN）。