子词向量到Sentencepiece标记的词向量

有些嵌入模型使用 Sentencepiece 模型进行令牌化。因此,它们为不在词汇表中的未知单词提供子单词向量。但是我想获取每个单词的单词向量,例如Word2vec,fastText。 我应该平均子词向量来代表一个词向量吗?

owenlixuan 回答:子词向量到Sentencepiece标记的词向量

  • 我已经在相似的行上做了一些实验,将所有子词取平均值 嵌入与整体的同义词具有更好的余弦相似度 字。

  • 所以是的,平均是有意义的,也是令牌生成器之类的最佳选择 单词和句子

本文链接:https://www.f2er.com/2633081.html

大家都在问