python碎片数据熊猫

使用有什么区别

//DASK
b = db.from_sequence(_query,npartitions=2)
df = b.to_dataframe()
df = df.compute()  

//PANDAS
df = pd.DataFrame(_query)

我想选择最佳选择,以对大量数据进行分段而又不损失性能

hxj752367319 回答:python碎片数据熊猫

根据Dask关于数据帧https://docs.dask.org/en/latest/dataframe-best-practices.html的最佳做法,对于适合RAM的数据,使用Pandas可能会更有效。

如果选择使用Dask,请避免使用很大的分区。如果手动更改分区数,请考虑可用的内存和核心。例如,具有100 GB和10个内核的计算机通常需要1 GB范围内的分区。

从Dask 2.0.0开始,您可以使用类似的方法: df.repartition(partition_size =“ 100MB”)

如果您选择使用Dask,我可以提供的其他技巧是建立一个本地客户端,您可以在其中利用Dask Distributed http://distributed.dask.org/en/latest/client.html。从那里避免完整的数据改组,并在计算到Pandas之前尽可能减少数据。

本文链接:https://www.f2er.com/3141308.html

大家都在问