Spark会在进入下一个循环迭代之前清除内存吗?

我正在使用pyspark中的for循环通过分区来解析文件。我有7个分区,每个分区的大小约为300GB,这就是我使用for循环的原因。

但是当涉及到第4或第5循环时,它开始出现很多故障(我在spark UI中看到了),突然重置了循环,并从第一个分区重新开始。 一段时间后,整个工作将失败。

似乎,Spark不会在执行下一个循环迭代之前清除执行程序的内存。是这样吗如果是这样,如何手动清除内存?

我刚刚了解Spark中的垃圾收集。是不是它超出了GC的最大内存容量?

谢谢

weika123456789 回答:Spark会在进入下一个循环迭代之前清除内存吗?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/1496724.html

大家都在问