Tabula.py：几页pdf的执行时间很慢

2024-05-23 • 问答

我正在使用tabula.py，但对于几页pdf（例如1000）的pdf，它运行太慢。有没有一种方法可以缩短执行时间，例如使用pyspark在集群上运行，还是在pyspark中有tabula.py？表格是否有任何分布式计算？

@ ExtractTable.com

count= 1000

for i in range(count):
  i = i + 1 
  output_file = "test_" + str(i)+ ".csv"
  if path.exists(output_file):
     print("%s file exist" %(output_file))
  else:
     df = tabula.convert_into(pdf_path,output_file,output_format='csv',pages=str(i))

hmd520 回答：Tabula.py：几页pdf的执行时间很慢

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

parallel-processing pyspark tabula

本文链接：https://www.f2er.com/3164140.html

Tabula.py：几页pdf的执行时间很慢

hmd520 回答：Tabula.py：几页pdf的执行时间很慢

大家都在问