是否可以在dask中批量处理csv的行?

我正在尝试处理dask中的csv行:

这个任务可以完成吗?

batch_size = 1000 # 1000rows
batch = []
count = 0

df = dd.read_csv (path,header = 0)
df_dask ['output'] = df.apply (lambda x: batch_row_csv (
         x),axis = 1,meta = object) .compute ()

def batch_row_csv (row):
       global batch 
       global count
       batch.append(row)
       if len (batch) < batch_size:
             return
       json.dump (batch) // save batch
       count = count +1
       batch = []
       return

全局变量和多重处理是否存在问题?在Dask的良好做法中,他们建议不要使用全局变量。有什么选择?

这个任务可以完成吗?

freedu9999 回答:是否可以在dask中批量处理csv的行?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3120681.html

大家都在问