如何在k均值聚类算法中选择适合可视化的列？

2024-05-21 • 问答

我正在尝试理解csv文件中列的选择，应将其应用于k-means。在下面的链接中，只将年收入和支出得分作为一栏（来自Mall_Customers.csv文件）用于可视化，而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮助。

它们具有3个可用于集群的功能。通常，他们只是采用所有要素的欧式距离来获得簇之间的距离。

这很容易在二维上显示。取两个点，它们之间的距离是三角形的斜边。在三个维度上，它很难可视化。作者只是使用2维，所以她以后可以绘制它。但是，要使用所有三个维度，您只需将代码修改为：

X = dataset.iloc[:,[1:3]].values

，它将在算法中使用年龄，收入和支出得分