我正在使用spacy NLP。解析器始终无法正确确定模棱两可的标记的PROPN / NOUN / VERB状态,因为在大多数语言中,拼写相同的单词可能具有不同的含义。
例如,就外星人将您飞入他们的飞船而言,“遭遇”可以是一个遭遇(名词,一个事件),或者是“遭遇”之类的“遭遇”->与(动词)联系。
Spacy有时甚至在相似的情况下也以不同的方式标识相同的拼写单词:
是引起这种情况的标点符号(“ =”?)吗?
我希望将标记识别为动词或名词的连续性,但不会改变。我了解使用经过训练的spacy数据(使用en_small和en_medium)不会随着LSTM的进行而使用LSTM,因此我不希望spacy能够“由于同一句中的先前决定而建立连续性”,但是对于同一句我仍然感到惊讶格式,内容也一样,spacy的标识也不同。
遭遇世界。遭遇自我”和“遭遇世界=遭遇自我” => 分别解析为VERB和NOUN
“遇到自我。遇到世界。”
=>解析为VERB,VERB。
“遇到自我”
=>解析为VERB