伙计们!我希望你一切都好。识别文档类型的最佳方法是什么?我想到的第一件事是将文档传递到OCR中,提取其中的信息,然后尝试在该文档中查找其他文档中没有的内容。例如:在一个名为R.G的文档上,有一个名为“Órgãoexpedidor”的信息在另一个文档上没有。这样我就知道这可能是R.G.这里的问题是,OCR流程无法识别某些PDF上的“Órgãoexpedidor”字段。这是完成该任务的最佳方法吗?
introject 回答:使用人工智能识别文档类型的最佳方法是什么?
首先,您需要创建覆盖您的域的数据集。准备文本语料库并为其分配所需的标签。请查看此thread,以获得有关语料库嵌入器的一些提示。
- 使用某些OCR软件包(例如tesseract)提取文本
- 将文本编码为潜在空间
- 训练模型
那是简单的方法。
当您基于某些视觉特征确定文档类型时,会变得更加困难。然后,您必须深入研究CNN架构,因为手动定义这些功能会非常困难且容易出错。