Word2Vec-如何存储和检索有关每个语料库实例的额外信息?

我需要将Word2Vec与我的cnn模型结合起来。为此,我需要为每个句子都保留一个标志(一个二进制的就足够了),因为我的语料库有两种类型的( a.k.a。目标类)句子。因此,我需要在创建后检索每个矢量的此标志。如何在Word2Vec的输入语句中存储和检索此信息,因为我都需要这两个信息来训练我的深度神经网络?

p.s。我正在使用Gensim的{​​{1}}实现。

p.s。我的语料库有 6,925 个句子,Word2Vec产生了 5,260 个向量。

编辑:有关我的主体的更多详细信息(根据要求):

语料库的结构如下:

  1. 句子(标签:Word2Vec)- Python列表

    • positive字符串
    • Feature-A字符串
    • Feature-B字符串
  2. 句子(标签:Feature-C)- Python列表

    • negative字符串
    • Feature-A字符串
    • Feature-B字符串

然后将所有句子作为Feature-C的输入。

Word2Vec

我将为cnn提供提取的特征(在这种情况下为word2vec = Word2Vec(all_sentences,min_count=1) )和句子的vocabulary。因此,我也需要这些句子的标签。

A19961217 回答:Word2Vec-如何存储和检索有关每个语料库实例的额外信息?

由于Word2Vec模型不会保留单个培训文本的任何表示形式,因此这完全取决于您自己的Python代码。

这似乎不是很多数据。 (对于典型的Word2Vec目的来说,最终词汇只有5260个单词,这是很小的。)

除非每个文本(又称“句子”)都非常长,否则您甚至可以使用Python字典,其中每个键是句子的完整字符串,而值是您的标志。

但是,如果您的源数据有可能在每个文本中具有其他唯一标识符(例如,唯一的数据库密钥,或者甚至是规范表示中的行/行号),则应该使用该标识符作为密钥。

实际上,如果对您的6,925个文本进行规范的源排序,则可以只包含一个列表flags,其中包含6,925个元素,其中每个元素都是您的标志。当您需要从位置n了解文本的状态时,只需查看flags[n]

(要提出更具体的建议,您需要添加有关原始数据源的更多详细信息,以及稍后何时/为什么需要检查此额外属性的确切信息。)

本文链接:https://www.f2er.com/2708216.html

大家都在问