我想知道是否有用于Apache openNLP的预构建的培训样本文件。 特别是提供了广泛的类别来测试文本分类?至少可以预建15000个条目的东西吗?
它遵循以下格式:
可以使用带注释的培训材料来培训文档分类程序。数据可以采用OpenNLP Document Categorizer培训格式。这是每行一个文档,包含用空格分隔的类别和文本。也可以使用其他格式。下面的示例以所需的格式显示了上面的示例。 GMDecrease和GMIncrease是类别。
GMDecrease毛利率低于现有网络的大型收购也\ 对整体毛利率产生了负面影响,但随着“ 实施其整合战略。 GMIncrease毛利润的向上变动是由于根据调整产生的金额\ 承担对经销商的义务。
注意:标有反斜杠的换行符只是出于格式化目的而插入,不能包含在训练数据中。
来源:https://opennlp.apache.org/docs/1.9.1/manual/opennlp.html