我正在尝试处理dask中的csv行:
这个任务可以完成吗?
batch_size = 1000 # 1000rows
batch = []
count = 0
df = dd.read_csv (path,header = 0)
df_dask ['output'] = df.apply (lambda x: batch_row_csv (
x),axis = 1,meta = object) .compute ()
def batch_row_csv (row):
global batch
global count
batch.append(row)
if len (batch) < batch_size:
return
json.dump (batch) // save batch
count = count +1
batch = []
return
全局变量和多重处理是否存在问题?在Dask的良好做法中,他们建议不要使用全局变量。有什么选择?
这个任务可以完成吗?