使用pyspark

我正在尝试使用pyspark将RDD保存到AWS S3,但出现“目录已存在”错误。

当“ content1”文件夹不存在时,下面的语句可以正常工作。但是,如果我想将其他文件保存到同一文件夹中,是否会出现上述错误?

rddFilteredData.repartition(5).saveAsTextFile("s3a://partners/research/content1",compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec")

此外,当上述命令起作用时,它会创建这些part-00000x.gz,这很好,但是

  1. 如何给他们取专有名称,例如research-results-00000x.gz?
  2. 这是否意味着我要将其他文件保存到“ content1”文件夹,我需要删除/移动现有文件,因为这会导致名称冲突?

因此,将RDD保存到现有存储桶/文件夹中以解决上述情况的正确方法是什么?预先感谢。

yongyuanxingfupingan 回答:使用pyspark

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3141004.html

大家都在问