Doc2Vec预训练和推断向量

2024-06-02 • 问答

假设我已经用50000个文档训练了doc2vec模型，并且我想推断包含36000个文档的单独数据集的向量。在这种情况下，推断出的向量将对下游的分类任务有效，因为我的假设是，推断出的向量取决于训练模型的文档的大小。

注意：这两个数据集（即用于训练doc2vec的一个数据集和用于推导向量的另一个数据集）都是唯一的，但来自美国最高法院的同一领域。

如果我有正当理由不对，请纠正我。

使用如此小的数据集，我无法给出任何答案，就像尝试查看其是否有效一样有用。

50000对于训练集来说很小，但是一些有用的Doc2Vec结果是基于类似的语料库。

向量推论，像训练一样，可以将任何长度的文档减少为固定大小的向量。（但请注意：gensim默默地将馈送给2Vec模型的所有文本限制为10000个令牌。）

但是，如果您已经在大约1000个单词的文档上训练了模型，然后尝试对10个单词的片段进行推理，那么这些doc-vector可能不如推断的矢量有用或以相同的方式有用在与培训集更相似的文档上。但是您仍然需要尝试找出答案。（还要注意：在推理过程中，训练中未学到的单词将被完全忽略，因此以后对包含很多/所有未知单词的文档进行的推理将是微弱的或毫无意义的。）

您的推理文档是否就是这种情况–它们与培训文档的大小和词汇量有很大不同吗？如果是这样，为什么？（您可以训练更多的代表性文件吗？）

如果在培训开始之前固定了这组36000个文档，则将它们包括在无监督的Doc2Vec培训中也可能是有效/可辩护的。它们是数据，它们有助于学习领域术语，并且其中没有任何形式的“正确”分类答案。

Doc2Vec预训练和推断向量

yifeichongtian1234 回答：Doc2Vec预训练和推断向量

大家都在问