-
Doc2Vec预训练和推断向量
假设我已经用50000个文档训练了doc2vec模型,并且我想推断包含36000个文档的单独数据集的向量。在这种情 -
Spacy的文本分类:超越基础知识来提高性能 数据问题尝试其他信息(主要来自评论)问题
我正尝试在具有两个排他性类别(1和0)的关于文本(Reddit帖子)的训练数据集上训练文本分类器,这些 -
如何获得RoBERTa单词嵌入?
给出一个类型为“ Roberta是BERT的优化版本”的句子,我需要使用RoBERTa对该句子中的每个单词进行嵌入。 -
如何衡量单词或非常短的文本之间的相似性
我正在研究在文档列表中查找最近的文档的问题。每个文档都是一个单词或一个很短的句子(例如“牛 -
Lavy和Goldberg的基于依赖项的单词嵌入:如何运行代码
我最近阅读了Levy和Goldberg的一篇关于依赖关系感知的词嵌入(这是对word2vec的扩展,具有任意上下文而不 -
使用BERT嵌入进行Seq2Seq模型构建
之前,我曾使用Glove嵌入来构建seq2seq模型以进行文本汇总,现在我想用BERT更改Glove以查看模型的 -
使用单词嵌入的文本分类
我有一个包含正负内容的数据集。因此,我们假设这是一个垃圾邮件项目。 我需要构建一个模型 -
Gensim word2vec下采样样本= 0
Gensim word2vec中的<code>sample= 0</code>表示我的培训期间没有使用过下采样吗?文档说了 <blockquote> “ -
在torchtext中使用spacy单词向量
spacy提供了德语单词向量<a href="https://stackoverflow.com/questions/21800169/python-pandas-get-index-of-rows-which-column-match -
TypeError:不可散列的类型:训练word2vec中的“列表”
我编写了此函数,并得到了<code><p> Alice drank the potion and she got <span class="f f1">bigger</span& -
在处理嵌入结果时,为什么tf.nn.embedding_lookup_sparse与tf.nn.embedding_lookup有区别?
<a href="https://www.tensorflow.org/api_docs/python/tf/nn/embedding_lookup_sparse" rel="nofollow noreferrer"><code>tf.nn.embedding_looku -
对BERT词嵌入进行PCA培训:整个培训数据集还是每个文档?
我想减少嵌入50个尺寸的BERT字的维数。我正在尝试PCA。我将其用于文档分类任务。 现在要训练PCA -
在Jupyter Notebook中检查命令的CPU使用率
我正在尝试对40万条记录应用推断的嵌入,并且每次运行时内核都会死亡。我想了解CPU使用率,但无法在 -
皮尔逊系数和尺寸
<strong>应如何解释较小尺寸的较高相关值? 例如,维度10的相关系数为0.7 </strong> -
Text2Vec:使用Jaccard / Cosine相似度而不是宽松的单词移动器距离进行文档相似度任务
我正在比较几种用于文档相似性任务的方法。 在一种方法中,我使用Glove WordEmbeddings表示文本,并使用 -
为什么我的LSTM层不断抛出错误?
我有一个rnn,想要输入长度为50的句子,并且输出的长度相同。 (对于聊天机器人)。有谁知道为什么 -
Glove6b50d解析:无法将字符串转换为浮点:'-'
我正在尝试通过Google Colab解析<a href="https://www.kaggle.com/watts2/glove6b50dtxt" rel="nofollow noreferrer">Glove6b50d data fr -
试图获取所有单词嵌入,但是Tensorflow StaticVocabularyTable对象不是可迭代的吗?
我在推文数据集中对前100个最常用的单词进行了编码。这些是使用ID为0-99的<code>tf.lookup.KeyValueTensorInitiali -
在嵌入层的输出上使用Dropout会更改数组值,为什么?
观察具有和不具有缺失的嵌入层的输出表明,数组中的值被替换为0。<strong>但是与此同时,为什么数组 -
Tensorflow功能列sequence_categorical_column_with_vocabulary_list用于变量值列表
从TensorFlow文档中,很清楚如何使用<code>tf.feature_column.categorical_column_with_vocabulary_list</code>创建特征列,该 -
如何可视化SpaCy单词嵌入作为散点图?
SpaCy中的每个单词都由长度为300的向量表示。我如何在散点图上绘制这些单词,以直观地看到任意两个 -
有哪些技术可以提高使用BERT的语义搜索引擎的上下文准确性?
我正在使用BERT(使用余弦距离)实现语义搜索引擎,在某种程度上,该方法能够找到高级上下文中的句 -
Keras'one_hot'用于文本处理
假设我的单词/句子序列为:“我喜欢食物” 如果我喜欢keras one_hot: <pre><code>from keras.preprocess -
从句子的numpy数组到嵌入的数组
我正在学习使用tensorflow并尝试对文本进行分类。我有一个数据集,其中每个文本都与标签0或1相关联。 -
如何根据预定义的语言类别衡量文档的独特性?
我有3类单词,分别对应于不同类型的心理驱动力(对动力的需求,对成就的需求和与组织的联系)。目 -
如何“扩展”英语句子
我想了解一些步骤和资源,以及如何构建程序来扩展英语句子。 例如,如果输入句子是 <blockqu -
重量不会在Pytorch nn中更新。
我为PyTorch的nn.Embedding模块加载了预训练的嵌入矩阵。我将其设置为可训练如下。 <pre><code>self.embeddin -
我想使用预训练的Word2Vec模型,但不确定如何使用它
我想使用此<a href="https://github.com/cogniinsight/Word-embedding-model-for-Bangla" rel="nofollow noreferrer">pre-trained Word2Vec m -
gensim word2vec单词嵌入如何提取1个单词句子的训练单词对?
请参考下图(word2vec跳过图如何从输入句子中提取训练数据集-单词对的过程)。 E.G。 “我爱你 -
Keras nn多种输出类型
<strong>摘要:</strong> 我还没有找到实现以下内容的方法: <ol> <li>嵌入单词的分类输出</li> <li>