word-embedding

Doc2Vec预训练和推断向量

假设我已经用50000个文档训练了doc2vec模型，并且我想推断包含36000个文档的单独数据集的向量。在这种情

前端之家
2022-07-16 • 问答
Spacy的文本分类：超越基础知识来提高性能数据问题尝试其他信息（主要来自评论）问题

我正尝试在具有两个排他性类别（1和0）的关于文本（Reddit帖子）的训练数据集上训练文本分类器，这些

前端之家
2022-07-15 • 问答
如何获得RoBERTa单词嵌入？

给出一个类型为“ Roberta是BERT的优化版本”的句子，我需要使用RoBERTa对该句子中的每个单词进行嵌入。

前端之家
2022-07-15 • 问答
如何衡量单词或非常短的文本之间的相似性

我正在研究在文档列表中查找最近的文档的问题。每个文档都是一个单词或一个很短的句子（例如“牛

前端之家
2022-07-14 • 问答
Lavy和Goldberg的基于依赖项的单词嵌入：如何运行代码

我最近阅读了Levy和Goldberg的一篇关于依赖关系感知的词嵌入（这是对word2vec的扩展，具有任意上下文而不

前端之家
2022-07-14 • 问答
使用BERT嵌入进行Seq2Seq模型构建

之前，我曾使用Glove嵌入来构建seq2seq模型以进行文本汇总，现在我想用BERT更改Glove以查看模型的

前端之家
2022-07-13 • 问答
使用单词嵌入的文本分类

我有一个包含正负内容的数据集。因此，我们假设这是一个垃圾邮件项目。我需要构建一个模型

前端之家
2022-07-13 • 问答
Gensim word2vec下采样样本= 0

Gensim word2vec中的<code>sample= 0</code>表示我的培训期间没有使用过下采样吗？文档说了 <blockquote> “

前端之家
2022-07-12 • 问答
在torchtext中使用spacy单词向量

spacy提供了德语单词向量<a href="https://stackoverflow.com/questions/21800169/python-pandas-get-index-of-rows-which-column-match

前端之家
2022-07-08 • 问答
TypeError：不可散列的类型：训练word2vec中的“列表”

我编写了此函数，并得到了<code> Alice drank the potion and she got bigger</span&

前端之家
2022-07-08 • 问答
在处理嵌入结果时，为什么tf.nn.embedding_lookup_sparse与tf.nn.embedding_lookup有区别？

<a href="https://www.tensorflow.org/api_docs/python/tf/nn/embedding_lookup_sparse" rel="nofollow noreferrer"><code>tf.nn.embedding_looku

前端之家
2022-07-08 • 问答
对BERT词嵌入进行PCA培训：整个培训数据集还是每个文档？

我想减少嵌入50个尺寸的BERT字的维数。我正在尝试PCA。我将其用于文档分类任务。现在要训练PCA

前端之家
2022-07-05 • 问答
在Jupyter Notebook中检查命令的CPU使用率

我正在尝试对40万条记录应用推断的嵌入，并且每次运行时内核都会死亡。我想了解CPU使用率，但无法在

前端之家
2022-07-04 • 问答
皮尔逊系数和尺寸

应如何解释较小尺寸的较高相关值？例如，维度10的相关系数为0.7 

前端之家
2022-07-04 • 问答
Text2Vec：使用Jaccard / Cosine相似度而不是宽松的单词移动器距离进行文档相似度任务

我正在比较几种用于文档相似性任务的方法。在一种方法中，我使用Glove WordEmbeddings表示文本，并使用

前端之家
2022-07-04 • 问答
为什么我的LSTM层不断抛出错误？

我有一个rnn，想要输入长度为50的句子，并且输出的长度相同。（对于聊天机器人）。有谁知道为什么

前端之家
2022-07-02 • 问答
Glove6b50d解析：无法将字符串转换为浮点：'-'

我正在尝试通过Google Colab解析<a href="https://www.kaggle.com/watts2/glove6b50dtxt" rel="nofollow noreferrer">Glove6b50d data fr

前端之家
2022-07-02 • 问答
试图获取所有单词嵌入，但是Tensorflow StaticVocabularyTable对象不是可迭代的吗？

我在推文数据集中对前100个最常用的单词进行了编码。这些是使用ID为0-99的<code>tf.lookup.KeyValueTensorInitiali

前端之家
2022-07-01 • 问答
在嵌入层的输出上使用Dropout会更改数组值，为什么？

观察具有和不具有缺失的嵌入层的输出表明，数组中的值被替换为0。但是与此同时，为什么数组

前端之家
2022-06-30 • 问答
Tensorflow功能列sequence_categorical_column_with_vocabulary_list用于变量值列表

从TensorFlow文档中，很清楚如何使用<code>tf.feature_column.categorical_column_with_vocabulary_list</code>创建特征列，该

前端之家
2022-06-30 • 问答
如何可视化SpaCy单词嵌入作为散点图？

SpaCy中的每个单词都由长度为300的向量表示。我如何在散点图上绘制这些单词，以直观地看到任意两个

前端之家
2022-06-30 • 问答
有哪些技术可以提高使用BERT的语义搜索引擎的上下文准确性？

我正在使用BERT（使用余弦距离）实现语义搜索引擎，在某种程度上，该方法能够找到高级上下文中的句

前端之家
2022-06-30 • 问答
Keras'one_hot'用于文本处理

假设我的单词/句子序列为：“我喜欢食物” 如果我喜欢keras one_hot： <pre><code>from keras.preprocess

前端之家
2022-06-29 • 问答
从句子的numpy数组到嵌入的数组

我正在学习使用tensorflow并尝试对文本进行分类。我有一个数据集，其中每个文本都与标签0或1相关联。

前端之家
2022-06-27 • 问答
如何根据预定义的语言类别衡量文档的独特性？

我有3类单词，分别对应于不同类型的心理驱动力（对动力的需求，对成就的需求和与组织的联系）。目

前端之家
2022-06-27 • 问答
如何“扩展”英语句子

我想了解一些步骤和资源，以及如何构建程序来扩展英语句子。例如，如果输入句子是 <blockqu

前端之家
2022-06-27 • 问答
重量不会在Pytorch nn中更新。

我为PyTorch的nn.Embedding模块加载了预训练的嵌入矩阵。我将其设置为可训练如下。 <pre><code>self.embeddin

前端之家
2022-06-26 • 问答
我想使用预训练的Word2Vec模型，但不确定如何使用它

我想使用此<a href="https://github.com/cogniinsight/Word-embedding-model-for-Bangla" rel="nofollow noreferrer">pre-trained Word2Vec m

前端之家
2022-06-25 • 问答
gensim word2vec单词嵌入如何提取1个单词句子的训练单词对？

请参考下图（word2vec跳过图如何从输入句子中提取训练数据集-单词对的过程）。 E.G。 “我爱你

前端之家
2022-06-24 • 问答
Keras nn多种输出类型

摘要： 我还没有找到实现以下内容的方法： <ol> <li>嵌入单词的分类输出</li> <li>

前端之家
2022-06-24 • 问答