在文本挖掘中对K-means进行分类

2024-05-15 • 问答

目标是创建一个计算机生成的新闻网站，以汇总来自世界各地不同新闻来源的头条新闻：

看看质心表的结果，我想了解以下内容：

我用K = 5 我正在使用TF-IDF

请解释这些数字是什么意思？如果一个属性在多个群集中为零，那是什么意思？
当我按降序对每个聚类对质心表进行排序时，我发现一些单词或属性在此聚类中具有较高的值，而在其他聚类中为零。这是否意味着这些单词在该群集中或多或少地频繁出现？如何讨论聚类模型所有集群都有意义，为什么？

您认为k = 5是此数据集的不错选择吗？还是我需要选择3个？我该如何分类？

我相信K = 5表示您正在研究当前数据集的群集数。在此基础上，将在数据周围放置5个质心。

您认为k = 5是此数据集的好选择吗？这种方式很难预测。所有这些都是通过数学组合和置换完成的。

您可以使用肘方法来确定任何给定数据集所需的正确簇数。此方法基于 WCSS（在正方形的群集总和内） ，该方法可以找到点之间的距离并提供质心点。

这些数字是群集的平均tf-idf。因此，0表示该单词不在聚类中，而值最高的单词是该聚类中最具特征的单词。

请注意，对于文本，您将要使用 spherical k-means而不是常规k-means。

选择k是个大问题。忘记肘方法，除了您的示例外，它永远不会起作用。尝试不同的k，然后选择最有说服力或最有用的k。我担心，在k均值中选择k时，通常的试探法都不会在这里起作用（VRC是最好的IMHO）。主要原因是数据无法很好地划分为k个簇。没有理由假设世界上确实有k个主题，也不是每个文档都只包含一个主题。相反，主题本身将是一个复杂的结构。例如，有特朗普，但也有特朗普埃尔多安会议，有弹each。这些并不脱节。但是您还将获得与这些主题都不相关的文章。这会导致真实的最佳k可能非常大，与文章数一样大（因此没有用）。

在文本挖掘中对K-means进行分类

hahaquanquan 回答：在文本挖掘中对K-means进行分类

大家都在问