使用人工智能识别文档类型的最佳方法是什么？

2024-05-15 • 问答

伙计们！我希望你一切都好。识别文档类型的最佳方法是什么？我想到的第一件事是将文档传递到OCR中，提取其中的信息，然后尝试在该文档中查找其他文档中没有的内容。例如：在一个名为R.G的文档上，有一个名为“Órgãoexpedidor”的信息在另一个文档上没有。这样我就知道这可能是R.G.这里的问题是，OCR流程无法识别某些PDF上的“Órgãoexpedidor”字段。这是完成该任务的最佳方法吗？

首先，您需要创建覆盖您的域的数据集。准备文本语料库并为其分配所需的标签。请查看此thread，以获得有关语料库嵌入器的一些提示。

使用某些OCR软件包（例如tesseract）提取文本
将文本编码为潜在空间
训练模型

那是简单的方法。

当您基于某些视觉特征确定文档类型时，会变得更加困难。然后，您必须深入研究CNN架构，因为手动定义这些功能会非常困难且容易出错。

使用人工智能识别文档类型的最佳方法是什么？

introject 回答：使用人工智能识别文档类型的最佳方法是什么？

大家都在问