Word2Vec-如何存储和检索有关每个语料库实例的额外信息？

2024-05-19 • 问答

我需要将Word2Vec与我的cnn模型结合起来。为此，我需要为每个句子都保留一个标志（一个二进制的就足够了），因为我的语料库有两种类型的（ a.k.a。目标类）句子。因此，我需要在创建后检索每个矢量的此标志。如何在Word2Vec的输入语句中存储和检索此信息，因为我都需要这两个信息来训练我的深度神经网络？

p.s。我正在使用Gensim的{{1}}实现。

p.s。我的语料库有 6,925 个句子，Word2Vec产生了 5,260 个向量。

编辑：有关我的主体的更多详细信息（根据要求）：

语料库的结构如下：

句子（标签：Word2Vec）- Python列表
- positive：字符串
- Feature-A：字符串
- Feature-B：字符串
句子（标签：Feature-C）- Python列表
- negative：字符串
- Feature-A：字符串
- Feature-B：字符串

然后将所有句子作为Feature-C的输入。

Word2Vec

我将为cnn提供提取的特征（在这种情况下为word2vec = Word2Vec(all_sentences,min_count=1)）和句子的vocabulary。因此，我也需要这些句子的标签。

由于Word2Vec模型不会保留单个培训文本的任何表示形式，因此这完全取决于您自己的Python代码。

这似乎不是很多数据。（对于典型的Word2Vec目的来说，最终词汇只有5260个单词，这是很小的。）

除非每个文本（又称“句子”）都非常长，否则您甚至可以使用Python字典，其中每个键是句子的完整字符串，而值是您的标志。

但是，如果您的源数据有可能在每个文本中具有其他唯一标识符（例如，唯一的数据库密钥，或者甚至是规范表示中的行/行号），则应该使用该标识符作为密钥。

实际上，如果对您的6,925个文本进行规范的源排序，则可以只包含一个列表flags，其中包含6,925个元素，其中每个元素都是您的标志。当您需要从位置n了解文本的状态时，只需查看flags[n]。

（要提出更具体的建议，您需要添加有关原始数据源的更多详细信息，以及稍后何时/为什么需要检查此额外属性的确切信息。）

Word2Vec-如何存储和检索有关每个语料库实例的额外信息？

A19961217 回答：Word2Vec-如何存储和检索有关每个语料库实例的额外信息？

大家都在问