Spacy NLP：适用于可能是动词的专有名词-根据输入顺序的歧义，并根据标点进行拆分

2024-05-19 • 问答

我正在使用spacy NLP。解析器始终无法正确确定模棱两可的标记的PROPN / NOUN / VERB状态，因为在大多数语言中，拼写相同的单词可能具有不同的含义。

例如，就外星人将您飞入他们的飞船而言，“遭遇”可以是一个遭遇（名词，一个事件），或者是“遭遇”之类的“遭遇”->与（动词）联系。

Spacy有时甚至在相似的情况下也以不同的方式标识相同的拼写单词：

是引起这种情况的标点符号（“ =”？）吗？

我希望将标记识别为动词或名词的连续性，但不会改变。我了解使用经过训练的spacy数据（使用en_small和en_medium）不会随着LSTM的进行而使用LSTM，因此我不希望spacy能够“由于同一句中的先前决定而建立连续性”，但是对于同一句我仍然感到惊讶格式，内容也一样，spacy的标识也不同。

遭遇世界。遭遇自我”和“遭遇世界=遭遇自我” => 分别解析为VERB和NOUN

“遇到自我。遇到世界。”

=>解析为VERB，VERB。

“遇到自我”

=>解析为VERB

nlp = spacy.load('en_core_web_lg') doc = nlp("Encounter the world=Encounter the self.") print([(t,t.pos_) for t in doc]) # [(Encounter,'VERB'),(the,'DET'),(world,'NOUN'),(=,'PUNCT'),(Encounter,(self,(.,'PUNCT')]

Spacy NLP：适用于可能是动词的专有名词-根据输入顺序的歧义，并根据标点进行拆分

mcj03 回答：Spacy NLP：适用于可能是动词的专有名词-根据输入顺序的歧义，并根据标点进行拆分

大家都在问