我想根据jstor提供的数据(例如https://www.jstor.org/dfr/about/sample-datasets)创建主题模型。但是,由于版权原因,它们不允许全文访问。取而代之的是,我可以请求一个字母组合的列表,后跟它们在文档中的频率(以纯.txt
提供)。例如:
his 295
old 181
he 165
age 152
p 110
from 79
life 74
de 71
petrarch 58
book 51
courtier 47
这应该很容易转换为单词袋向量。但是,我仅发现了从全文构建Gensim LDA模型的示例。可以将这些向量传递给它吗?