我正在使用tabula.py
,但对于几页pdf(例如1000)的pdf,它运行太慢。有没有一种方法可以缩短执行时间,例如使用pyspark在集群上运行,还是在pyspark中有tabula.py?表格是否有任何分布式计算?
@ ExtractTable.com
count= 1000
for i in range(count):
i = i + 1
output_file = "test_" + str(i)+ ".csv"
if path.exists(output_file):
print("%s file exist" %(output_file))
else:
df = tabula.convert_into(pdf_path,output_file,output_format='csv',pages=str(i))