从词袋向量使用gensim创建LDA模型

2024-05-18 • 问答

我想根据jstor提供的数据（例如https://www.jstor.org/dfr/about/sample-datasets）创建主题模型。但是，由于版权原因，它们不允许全文访问。取而代之的是，我可以请求一个字母组合的列表，后跟它们在文档中的频率（以纯.txt提供）。例如：

his         295
old         181
he          165
age         152
p           110
from         79
life         74
de           71
petrarch     58
book         51
courtier     47

这应该很容易转换为单词袋向量。但是，我仅发现了从全文构建Gensim LDA模型的示例。可以将这些向量传递给它吗？

wanglong52044 回答：从词袋向量使用gensim创建LDA模型

是的，您只需要将(word,frequency)转换为(word_number,frequency)，并将元组列表传递给任何gensim模型的corpus。要将单词转换为数字，您可以首先计算整个语料库中有多少个单词，假设我们有 V 个单词，然后每个单词都可以表示为1到 V之间的整数。

jstor lda topic-modeling vector

本文链接：https://www.f2er.com/3093139.html

从词袋向量使用gensim创建LDA模型

wanglong52044 回答：从词袋向量使用gensim创建LDA模型

大家都在问