在dask中为行创建唯一的ID

我需要为dask数据框中的行添加一个id,我尝试做的第一件事是添加一个累积索引,如其他question

所示
df["idx"] = 1
df["idx"] = df["idx"].cumsum()

但是我的笔记本电脑崩溃了,所以也许可以选择一个随机的唯一ID

作为其他信息,我正在使用10GB的镶木地板格式文件和20Gb的CSV文件,而我的笔记本电脑具有16Gb的RAM

如果可能的话,我不知道的另一种选择是将新列追加/添加到文件中而不将其加载到内存中

clshz2009 回答:在dask中为行创建唯一的ID

我会找出一些针对Pandas的代码,然后使用map_partitions方法来并行应用相同的功能。也许像下面这样?

def add_unique_id_column(df: pandas.DataFrame) -> pandas.DataFrame:
    ...

df = df.map_partitions(add_unique_id_column)
本文链接:https://www.f2er.com/2830081.html

大家都在问