使用spaCy命令行培训器管理培训/开发分组

我正在使用python -m spacy train命令行工具来训练NER模型。我使用gold.docs_to_json将带注释的文档转换为JSON-serializable format

命令行训练工具同时使用训练集和开发集。我不确定命令行工具会为我提供哪些帮助来管理Train / dev拆分。

  1. 是否有一个命令行工具可以从一组数据中创建训练/开发分区?
  2. spaCy培训命令会为我做交叉验证,而不是让我创建开发集吗?
  3. 当需要在所有数据上训练生产模型时,我将什么用作开发集?

我认为问题(1)和(2)的答案均为“否”,但我想再次确认。

从玩法的角度来看,即使您要针对固定数量的迭代训练生产模型,也总是必须传递一个非空的开发集。现在,我只是传递训练数据的副本,但是看起来很奇怪,所以我想知道是否还有其他程序需要丢失。

spaCy培训文档主要讨论编写自己的迭代循环。我已经做了足够的工作,如果我编写自己的代码,我可以确保可以完成上述任何工作,但是对于这些基本的培训操作,我宁愿不编写代码,而仅对所有内容使用命令行工具。

edencpp 回答:使用spaCy命令行培训器管理培训/开发分组

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2709190.html

大家都在问