有什么办法可以理解word2vec的输出功能?

我想了解word2vec输出中每个维度的含义。

例如,如果我用一个热编码变量创建一个决策树,则可以准确分辨出分类变量中哪个类别负责拆分。但是,如果使用嵌入,则无法解释这些拆分的原因。

我知道嵌入(国王)的著名示例-嵌入(男人)+嵌入(女人)=嵌入(女王)。从这个例子中,我们可以说“特许权”的特征已经被理解。

我猜想一种方法是根据余弦相似度对相似的数据点进行聚类,以获得有关输出特征是什么的上下文。

例如,如果我得到一个数据点的最近3个邻居为“公里”,“英寸”和“英里”。我可以推断出“长度”是可能负责决策树中的拆分的原因。但是,我想知道是否还有另一种方法。

houyong888 回答:有什么办法可以理解word2vec的输出功能?

首先,词嵌入大多是在无监督的情况下生成的。因此,当播种时,实际上可以找到不同的属性。实际上,某些Word2Vec运行可能永远不会选择版税或长度属性。

此外,这些属性在其顺序方面有些无意义。只要在同一个地方找到相同的属性就可以了。

基于此,从根本上需要对Word Embeddings进行研究,以将其项与我们将其标记为的项相关联。令人着迷的问题是,有哪些项目与我们的概念不相关,但对于词嵌入仍然有用。

您可能感兴趣的是语义本体以及它们如何与不同的语义概念相关联。

本文链接:https://www.f2er.com/3126612.html

大家都在问