我需要将Word2Vec与我的cnn
模型结合起来。为此,我需要为每个句子都保留一个标志(一个二进制的就足够了),因为我的语料库有两种类型的( a.k.a。目标类)句子。因此,我需要在创建后检索每个矢量的此标志。如何在Word2Vec
的输入语句中存储和检索此信息,因为我都需要这两个信息来训练我的深度神经网络?
p.s。我正在使用Gensim
的{{1}}实现。
p.s。我的语料库有 6,925 个句子,Word2Vec
产生了 5,260 个向量。
编辑:有关我的主体的更多详细信息(根据要求):
语料库的结构如下:
-
句子(标签:
Word2Vec
)- Python列表-
positive
:字符串 -
Feature-A
:字符串 -
Feature-B
:字符串
-
-
句子(标签:
Feature-C
)- Python列表-
negative
:字符串 -
Feature-A
:字符串 -
Feature-B
:字符串
-
然后将所有句子作为Feature-C
的输入。
Word2Vec
我将为cnn提供提取的特征(在这种情况下为word2vec = Word2Vec(all_sentences,min_count=1)
)和句子的vocabulary
。因此,我也需要这些句子的标签。