我正在使用一些数据来生成一些标签,以便可以对我的数据进行排序,以在有监督的学习环境中使用。我一直在生成树状图以可视化数据聚类的方式,但是当我使用KMeans创建标签时,只有少数标签显示它们在所显示的树状图的聚类中。
代码:
combined_array = pd.read_pickle('arrays.pickle')
model = KMeans(algorithm = 'auto',copy_x = True,init = 'k-means++',max_iter = 300,n_clusters = 7,n_init = 10,n_jobs = 1,precompute_distances = 'auto',random_state = 1,tol = 0.0001,verbose = 0)
model.fit(combined_array)
labels = model.predict(combined_array)
pd.DataFrame(labels).to_csv("arrays_labels.csv")
mergings = linkage(combined_array,method = 'ward')
dendrogram(mergings,leaf_rotation = 0,leaf_font_size = 14,show_contracted = True)
上图显示了该群集中应包含哪些文件的一部分,但是当我使用kmeans生成标签时,仅包含文件28,33,41,45,70
。那么,为什么13,42,67,81
没有出现在我的标签中? KMeans
和dendrogram
是否创建不同类型的集群?