使用count()与collect()时行数不一致

我正在使用pyspark处理来自S3存储桶的数据。当我在数据框上使用count()时,输出约为450万行。但是,使用len(df.collect())返回的计数为130万行。可能是什么问题?

已编辑以显示代码,尽管我不知道它将有多大帮助 编辑2:一个接一个地执行会导致此问题吗?

df.count()
# prints out 4513909

a = df.collect()
print(len(a))
# prints out 1405367
zhangziqun31 回答:使用count()与collect()时行数不一致

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3112105.html

大家都在问