Tabula.py:几页pdf的执行时间很慢

我正在使用tabula.py,但对于几页pdf(例如1000)的pdf,它运行太慢。有没有一种方法可以缩短执行时间,例如使用pyspark在集群上运行,还是在pyspark中有tabula.py?表格是否有任何分布式计算?

@ ExtractTable.com

count= 1000

for i in range(count):
  i = i + 1 
  output_file = "test_" + str(i)+ ".csv"
  if path.exists(output_file):
     print("%s file exist" %(output_file))
  else:
     df = tabula.convert_into(pdf_path,output_file,output_format='csv',pages=str(i))
hmd520 回答:Tabula.py:几页pdf的执行时间很慢

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3164140.html

大家都在问