使用count（）与collect（）时行数不一致

2024-04-30 • 问答

我正在使用pyspark处理来自S3存储桶的数据。当我在数据框上使用count（）时，输出约为450万行。但是，使用len（df.collect（））返回的计数为130万行。可能是什么问题？

已编辑以显示代码，尽管我不知道它将有多大帮助编辑2：一个接一个地执行会导致此问题吗？

df.count()
# prints out 4513909

a = df.collect()
print(len(a))
# prints out 1405367

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

本文链接：https://www.f2er.com/3112105.html