使用PySpark的Pandas UDF分组地图是否将每个组的数据加载到分配给一个执行程序的内存中?

我想使用here中所述的PySpark 2.3+中的等效熊猫分组地图,但是我发现这句话在描述中有些含糊。

  

请注意,应用该功能之前,组的所有数据将被加载到内存中。这可能会导致内存不足异常,尤其是在组大小偏斜的情况下。 maxRecordsPerBatch的配置不适用于组,并且要由用户来确保分组的数据将适合可用内存。

可用内存在这里意味着什么?它是群集上的可用内存还是分配给单个执行程序的内存?

wangyin2003 回答:使用PySpark的Pandas UDF分组地图是否将每个组的数据加载到分配给一个执行程序的内存中?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3071475.html

大家都在问