我制作了LDA模型,以使用大量训练数据集制作主题模型。因此,我尝试使用此LDA模型对新句子进行分类,而该新句子在训练数据集中不使用。
如何使用新输入的句子找到最接近的主题编号?
我应该使用LDA主题模型作为分类模型输入吗?
欢迎使用Python共享示例代码。
我制作了LDA模型,以使用大量训练数据集制作主题模型。因此,我尝试使用此LDA模型对新句子进行分类,而该新句子在训练数据集中不使用。
如何使用新输入的句子找到最接近的主题编号?
我应该使用LDA主题模型作为分类模型输入吗?
欢迎使用Python共享示例代码。
在分类问题中,由于地面真标是已知的,因此我们只需要考虑如何从训练数据中提取特征。对于LDA,特征通常是主题概率分布,即,如果语料库中有5个主题,则特征向量的维数是5,这应该比壁橱主题编号(最可能的主题)更好。
关于如何获取新输入句子的主题概率分布,可以看看here,对于其他软件包,它们也应该具有类似的功能。