遍历Spark Dataframe,保存结果并在上一次迭代中使用结果

如何遍历spark数据框,应用业务逻辑并在下一次迭代中使用结果。由于要在此作业中处理的数据量较大,因此我将脚本从pandas / numpy转换为spark。我们拥有的业务逻辑非常复杂,我已经能够将其激发出来。我遇到的问题是如何将下面的第1组的结果传递给第2组使用。同样,问题并不是那么简单,大约有10个变量将取决于当前组的值,这些变量将用于当前组的计算中。我一直在考虑也许在组中进行流传输并将结果保存到某种临时表中,然后在下一个流中使用结果?不确定如何运作。有什么想法吗?

遍历Spark Dataframe,保存结果并在上一次迭代中使用结果

对于添加的上下文:

我有一个实现了大量逻辑的数据框。有一列从1到20。我为第1组定义了大量逻辑。我需要将这些相同的转换以及计算结果适当地传递给下一组2,依此类推。可以将数据框传递给带有输出的函数吗?

newsatan 回答:遍历Spark Dataframe,保存结果并在上一次迭代中使用结果

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3156581.html

大家都在问