我相信K = 5表示您正在研究当前数据集的群集数。在此基础上,将在数据周围放置5个质心。
您认为k = 5是此数据集的好选择吗?这种方式很难预测。所有这些都是通过数学组合和置换完成的。
您可以使用肘方法来确定任何给定数据集所需的正确簇数。此方法基于 WCSS(在正方形的群集总和内) ,该方法可以找到点之间的距离并提供质心点。
,
这些数字是群集的平均tf-idf。因此,0表示该单词不在聚类中,而值最高的单词是该聚类中最具特征的单词。
请注意,对于文本,您将要使用 spherical k-means而不是常规k-means。
选择k是个大问题。忘记肘方法,除了您的示例外,它永远不会起作用。尝试不同的k,然后选择最有说服力或最有用的k。我担心,在k均值中选择k时,通常的试探法都不会在这里起作用(VRC是最好的IMHO)。主要原因是数据 无法很好地划分为k个簇。没有理由假设世界上确实有k个主题,也不是每个文档都只包含一个主题。相反,主题本身将是一个复杂的结构。例如,有特朗普,但也有特朗普埃尔多安会议,有弹each。这些并不脱节。但是您还将获得与这些主题都不相关的文章。这会导致真实的最佳k可能非常大,与文章数一样大(因此没有用)。
本文链接:https://www.f2er.com/3105277.html