python碎片数据熊猫

2024-05-21 • 问答

使用有什么区别

//DASK
b = db.from_sequence(_query,npartitions=2)
df = b.to_dataframe()
df = df.compute()  

//PANDAS
df = pd.DataFrame(_query)

我想选择最佳选择，以对大量数据进行分段而又不损失性能

根据Dask关于数据帧https://docs.dask.org/en/latest/dataframe-best-practices.html的最佳做法，对于适合RAM的数据，使用Pandas可能会更有效。

如果选择使用Dask，请避免使用很大的分区。如果手动更改分区数，请考虑可用的内存和核心。例如，具有100 GB和10个内核的计算机通常需要1 GB范围内的分区。

从Dask 2.0.0开始，您可以使用类似的方法： df.repartition（partition_size =“ 100MB”）

如果您选择使用Dask，我可以提供的其他技巧是建立一个本地客户端，您可以在其中利用Dask Distributed http://distributed.dask.org/en/latest/client.html。从那里避免完整的数据改组，并在计算到Pandas之前尽可能减少数据。