使用潜在Dirichlet分配(在gensim或sklearn中使用python),如何使用每个文档的主题分布及其相关分类(假设我们将电影评论标记为肯定或否定)以在监督学习算法中使用对看不见的文档进行分类
您是否建议别人看看,有没有其他人做过的资源或工作?
这是该问题的细分:
-
让我们假设我有一个语料库,每个文档都是电影评论。每个文档都标记为肯定或否定(用于正面或负面评论)。
-
使用潜在狄利克雷分配(主题建模),我想为此语料库生成一个主题模型,以便每个文档都与主题的某种分布相关联。
-
然后使用主题分布和分类(正或负),我想训练一个监督的机器学习算法(例如,神经网络或决策树),以便我们可以对未曾在电影院上映的未来电影评论进行分类都由模型决定是正数还是负数。