我运行Gensim来训练主体的Doc2vec。我需要提取每个文档的向量作为输入数据,以便在Spark中进行逻辑回归。
numen1234 回答:调用Spark中的Doc2Vec并输入向量以进行逻辑回归机器学习
如果您的Doc2Vec
模型位于变量model
中,则可以通过以下方式通过其键(训练期间提供的tag
)访问每个文档向量:
model.docvecs[tag]
所有原始doc-vector的数组位于:
model.docvecs.vectors_docs
((如果您在训练过程中使用普通整数作为文档的标签,则每个文档的向量都位于提供的int位置。如果您使用字符串作为标签,则对应于该{{ 1}}数组位于vectors_docs
列表中,如果您使用了整数和字符串的混合形式-这种情况非常少见,除了专家建议,不建议使用-那么使用的优化更为复杂,因此您应检查源代码全文。)