Spacy NLP:适用于可能是动词的专有名词-根据输入顺序的歧义,并根据标点进行拆分

我正在使用spacy NLP。解析器始终无法正确确定模棱两可的标记的PROPN / NOUN / VERB状态,因为在大多数语言中,拼写相同的单词可能具有不同的含义。

例如,就外星人将您飞入他们的飞船而言,“遭遇”可以是一个遭遇(名词,一个事件),或者是“遭遇”之类的“遭遇”->与(动词)联系。

Spacy有时甚至在相似的情况下也以不同的方式标识相同的拼写单词:

Spacy NLP:适用于可能是动词的专有名词-根据输入顺序的歧义,并根据标点进行拆分

是引起这种情况的标点符号(“ =”?)吗?

我希望将标记识别为动词或名词的连续性,但不会改变。我了解使用经过训练的spacy数据(使用en_small和en_medium)不会随着LSTM的进行而使用LSTM,因此我不希望spacy能够“由于同一句中的先前决定而建立连续性”,但是对于同一句我仍然感到惊讶格式,内容也一样,spacy的标识也不同。

遭遇世界。遭遇自我”和“遭遇世界=遭遇自我” => 分别解析为VERB和NOUN

Spacy NLP:适用于可能是动词的专有名词-根据输入顺序的歧义,并根据标点进行拆分

“遇到自我。遇到世界。”

=>解析为VERB,VERB。

“遇到自我”

=>解析为VERB

mcj03 回答:Spacy NLP:适用于可能是动词的专有名词-根据输入顺序的歧义,并根据标点进行拆分

确保您使用的是最新版本的spacy和最新模型,例如en_core_web_lg。

在我的设置中,我没有得到您所描述的错误:

nlp = spacy.load('en_core_web_lg')

doc = nlp("Encounter the world=Encounter the self.")
print([(t,t.pos_) for t in doc])
# [(Encounter,'VERB'),(the,'DET'),(world,'NOUN'),(=,'PUNCT'),(Encounter,(self,(.,'PUNCT')]

我的spacy版本:

print(spacy.__version__)
# 2.2.1
本文链接:https://www.f2er.com/3144988.html

大家都在问