我正在使用pyspark中的for循环通过分区来解析文件。我有7个分区,每个分区的大小约为300GB,这就是我使用for循环的原因。
但是当涉及到第4或第5循环时,它开始出现很多故障(我在spark UI中看到了),突然重置了循环,并从第一个分区重新开始。 一段时间后,整个工作将失败。
似乎,Spark不会在执行下一个循环迭代之前清除执行程序的内存。是这样吗如果是这样,如何手动清除内存?
我刚刚了解Spark中的垃圾收集。是不是它超出了GC的最大内存容量?
谢谢
我正在使用pyspark中的for循环通过分区来解析文件。我有7个分区,每个分区的大小约为300GB,这就是我使用for循环的原因。
但是当涉及到第4或第5循环时,它开始出现很多故障(我在spark UI中看到了),突然重置了循环,并从第一个分区重新开始。 一段时间后,整个工作将失败。
似乎,Spark不会在执行下一个循环迭代之前清除执行程序的内存。是这样吗如果是这样,如何手动清除内存?
我刚刚了解Spark中的垃圾收集。是不是它超出了GC的最大内存容量?
谢谢