如何在k均值聚类算法中选择适合可视化的列?

我正在尝试理解csv文件中列的选择,应将其应用于k-means。 在下面的链接中,只将年收入和支出得分作为一栏(来自Mall_Customers.csv文件)用于可视化,而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮助。

zqf123456zqf 回答:如何在k均值聚类算法中选择适合可视化的列?

它们具有3个可用于集群的功能。通常,他们只是采用所有要素的欧式距离来获得簇之间的距离。

这很容易在二维上显示。取两个点,它们之间的距离是三角形的斜边。在三个维度上,它很难可视化。作者只是使用2维,所以她以后可以绘制它。但是,要使用所有三个维度,您只需将代码修改为:

X = dataset.iloc[:,[1:3]].values

,它将在算法中使用年龄,收入和支出得分

本文链接:https://www.f2er.com/2999906.html

大家都在问