据我了解,lda生成文档主题矩阵,其中每个文档都表示为每个主题的概率。
topic1 topic 2 topic3
doc 1 0.3 0.5 0.2
doc 2 0.1 0.5 0.4
... .. ... ..
我正在使用LDA进行嵌入,因为我的数据不是连续的((不能使用doc2vec等。)),并且对簇结果的解释在我的领域中很重要。我认为我可以解释结果,因为文档表示为可以理解的主题。
是否认为文档主题向量作为嵌入向量是合理的? 如果是这样,在LDA之后使用聚类算法是否有意义? 还是LDA嵌入有其他选择?