使用人工智能识别文档类型的最佳方法是什么?

伙计们!我希望你一切都好。识别文档类型的最佳方法是什么?我想到的第一件事是将文档传递到OCR中,提取其中的信息,然后尝试在该文档中查找其他文档中没有的内容。例如:在一个名为R.G的文档上,有一个名为“Órgãoexpedidor”的信息在另一个文档上没有。这样我就知道这可能是R.G.这里的问题是,OCR流程无法识别某些PDF上的“Órgãoexpedidor”字段。这是完成该任务的最佳方法吗?

introject 回答:使用人工智能识别文档类型的最佳方法是什么?

首先,您需要创建覆盖您的域的数据集。准备文本语料库并为其分配所需的标签。请查看此thread,以获得有关语料库嵌入器的一些提示。

  1. 使用某些OCR软件包(例如tesseract)提取文本
  2. 将文本编码为潜在空间
  3. 训练模型

那是简单的方法。

当您基于某些视觉特征确定文档类型时,会变得更加困难。然后,您必须深入研究CNN架构,因为手动定义这些功能会非常困难且容易出错。

本文链接:https://www.f2er.com/3101546.html

大家都在问