在文本挖掘中对K-means进行分类

目标是创建一个计算机生成的新闻网站,以汇总来自世界各地不同新闻来源的头条新闻:

看看质心表的结果,我想了解以下内容:

https://ibb.co/n1mvnbk

我用K = 5 我正在使用TF-IDF

请解释这些数字是什么意思? 如果一个属性在多个群集中为零,那是什么意思?
当我按降序对每个聚类对质心表进行排序时,我发现一些单词或属性在此聚类中具有较高的值,而在其他聚类中为零。这是否意味着这些单词在该群集中或多或少地频繁出现? 如何讨论聚类模型 所有集群都有意义,为什么?

您认为k = 5是此数据集的不错选择吗?还是我需要选择3个?我该如何分类?

hahaquanquan 回答:在文本挖掘中对K-means进行分类

我相信K = 5表示您正在研究当前数据集的群集数。在此基础上,将在数据周围放置5个质心。

您认为k = 5是此数据集的好选择吗?这种方式很难预测。所有这些都是通过数学组合和置换完成的。

您可以使用肘方法来确定任何给定数据集所需的正确簇数。此方法基于 WCSS(在正方形的群集总和内) ,该方法可以找到点之间的距离并提供质心点。

,

这些数字是群集的平均tf-idf。因此,0表示该单词不在聚类中,而值最高的单词是该聚类中最具特征的单词。

请注意,对于文本,您将要使用 spherical k-means而不是常规k-means。

选择k是个大问题。忘记肘方法,除了您的示例外,它永远不会起作用。尝试不同的k,然后选择最有说服力或最有用的k。我担心,在k均值中选择k时,通常的试探法都不会在这里起作用(VRC是最好的IMHO)。主要原因是数据 无法很好地划分为k个簇。没有理由假设世界上确实有k个主题,也不是每个文档都只包含一个主题。相反,主题本身将是一个复杂的结构。例如,有特朗普,但也有特朗普埃尔多安会议,有弹each。这些并不脱节。但是您还将获得与这些主题都不相关的文章。这会导致真实的最佳k可能非常大,与文章数一样大(因此没有用)。

本文链接:https://www.f2er.com/3105277.html

大家都在问