Camelot 无法提取整个表

2024-06-02 • 问答

我使用 Camelot 从我使用 ocrmypdf(500dpi) 从扫描转换为可搜索的 PDF 中提取表格信息。

Camelot 似乎能够识别表格并提取表格内的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是有问题的 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供有关改进 Camelots“愿景”的任何指导。

iCMS 回答：Camelot 无法提取整个表

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

ocrmypdf pdf-extraction pdftables python-camelot

本文链接：https://www.f2er.com/190616.html