Spark会在进入下一个循环迭代之前清除内存吗？

2024-05-21 • 问答

我正在使用pyspark中的for循环通过分区来解析文件。我有7个分区，每个分区的大小约为300GB，这就是我使用for循环的原因。

但是当涉及到第4或第5循环时，它开始出现很多故障（我在spark UI中看到了），突然重置了循环，并从第一个分区重新开始。一段时间后，整个工作将失败。

似乎，Spark不会在执行下一个循环迭代之前清除执行程序的内存。是这样吗如果是这样，如何手动清除内存？

我刚刚了解Spark中的垃圾收集。是不是它超出了GC的最大内存容量？

谢谢

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

本文链接：https://www.f2er.com/1496724.html