我已经听说 FastText 正在使用其 n-gram 生成 OOV 词向量。它已经自动内置在 FastText 架构中,还是我们想调整特定参数?就像 Keras 标记器中的 oov_tokens。我已经在寻找要在 Fast Text 中调整的参数,但找不到任何参数。
如果有人知道并想分享他们的知识,我将不胜感激。
谢谢。
我已经听说 FastText 正在使用其 n-gram 生成 OOV 词向量。它已经自动内置在 FastText 架构中,还是我们想调整特定参数?就像 Keras 标记器中的 oov_tokens。我已经在寻找要在 Fast Text 中调整的参数,但找不到任何参数。
如果有人知道并想分享他们的知识,我将不胜感激。
谢谢。
OOV 词的矢量生成已集成到 fastText 中(至少在 Facebook 的原始实现中)。
为了生成这些向量,fastText 使用子词 n-grams。要了解更多信息,您可以阅读 this thread 和 this visual guide。
因此,对 OOV 词向量创建影响最大的参数如下:
minn
(字符 ngram 的最小长度)maxn
(字符 ngram 的最大长度)有关 fastText 选项/参数的更多信息,请参阅 the official documentation。