使用pyspark

2024-05-05 • 问答

我正在尝试使用pyspark将RDD保存到AWS S3，但出现“目录已存在”错误。

当“ content1”文件夹不存在时，下面的语句可以正常工作。但是，如果我想将其他文件保存到同一文件夹中，是否会出现上述错误？

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1",compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

此外，当上述命令起作用时，它会创建这些part-00000x.gz，这很好，但是

因此，将RDD保存到现有存储桶/文件夹中以解决上述情况的正确方法是什么？预先感谢。