使用有什么区别
//DASK
b = db.from_sequence(_query,npartitions=2)
df = b.to_dataframe()
df = df.compute()
//PANDAS
df = pd.DataFrame(_query)
我想选择最佳选择,以对大量数据进行分段而又不损失性能
使用有什么区别
//DASK
b = db.from_sequence(_query,npartitions=2)
df = b.to_dataframe()
df = df.compute()
//PANDAS
df = pd.DataFrame(_query)
我想选择最佳选择,以对大量数据进行分段而又不损失性能
根据Dask关于数据帧https://docs.dask.org/en/latest/dataframe-best-practices.html的最佳做法,对于适合RAM的数据,使用Pandas可能会更有效。
如果选择使用Dask,请避免使用很大的分区。如果手动更改分区数,请考虑可用的内存和核心。例如,具有100 GB和10个内核的计算机通常需要1 GB范围内的分区。
从Dask 2.0.0开始,您可以使用类似的方法: df.repartition(partition_size =“ 100MB”)
如果您选择使用Dask,我可以提供的其他技巧是建立一个本地客户端,您可以在其中利用Dask Distributed http://distributed.dask.org/en/latest/client.html。从那里避免完整的数据改组,并在计算到Pandas之前尽可能减少数据。