在AWS中写入s3 Bucket时将dask分区合并到一个文件中

我设法使用Dask以拼花格式将oracle数据库表写入AWS的s3存储桶中。但是,我希望能像在Pandas中那样写出单个文件。我知道Dask会对创建单独文件和文件夹的数据进行分区。我试过将append设置为true,将分区数设置为false,但这没有什么区别。 在写入s3存储桶以创建不带文件夹的单个镶木文件时,是否有合并/附加分区的方法?

谢谢

wslky 回答:在AWS中写入s3 Bucket时将dask分区合并到一个文件中

Dask当前不存在此功能。不过,利用pyarrow或fastparquet进行工作可能并不难,但是,可以将分区带入并以任何喜欢的新分块方案进行流处理。

我不确定,但是可能可以使用s3复制功能从数据文件中有选择地切掉字节块并将其粘贴到您要制作的主文件中……这将涉及更多。

本文链接:https://www.f2er.com/3156039.html

大家都在问