Camelot 无法提取整个表

我使用 Camelot 从我使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。

Camelot 似乎能够识别表格并提取表格内的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是有问题的 PDF 中的表格:

Camelot 无法提取整个表

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

Camelot 无法提取整个表

您可以在此处提供有关改进 Camelots“愿景”的任何指导。

iCMS 回答:Camelot 无法提取整个表

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/190616.html

大家都在问