有没有一种方法可以正确标记(PoS标记)一起组成短语的单词?

我尝试了多种方法来正确标记构成短语的一堆单词(尤其是名词短语),但未能成功。

例如:“ the”,“ first”,“ early”,“ morning”,“ sunbeams”

'early'和'morning'被错误地标记为'名词',其预期结果应为:('first','adverb'),('early','adverb'),('morning','形容词”)((“光束”,“名词”)

能否请您提出一个正确标记这些单词的程序?

谢谢。

hahahaha548 回答:有没有一种方法可以正确标记(PoS标记)一起组成短语的单词?

POS标记器通常使用隐马尔可夫模型。如果使用这些方法未正确标记您的数据,则标记器(自制的?)不适合您的输入数据,或者您的训练数据不足(太小,错误的注释等)。我认为各种手段都是NLTK,spaCy或Stanford(https://nlp.stanford.edu/software/)的工具。这些软件包将以当前研究的质量来完成这项工作,因此,如果仍然容易出错,则将无法对其进行修复。 如果您手头有一个大型集群,则可以根据需要使用n> 3的n-gram构建自己的标记器,但是我怀疑这会比上面提到的模块更好。

本文链接:https://www.f2er.com/3164831.html

大家都在问