遍历Spark Dataframe，保存结果并在上一次迭代中使用结果

2024-05-09 • 问答

如何遍历spark数据框，应用业务逻辑并在下一次迭代中使用结果。由于要在此作业中处理的数据量较大，因此我将脚本从pandas / numpy转换为spark。我们拥有的业务逻辑非常复杂，我已经能够将其激发出来。我遇到的问题是如何将下面的第1组的结果传递给第2组使用。同样，问题并不是那么简单，大约有10个变量将取决于当前组的值，这些变量将用于当前组的计算中。我一直在考虑也许在组中进行流传输并将结果保存到某种临时表中，然后在下一个流中使用结果？不确定如何运作。有什么想法吗？

对于添加的上下文：

我有一个实现了大量逻辑的数据框。有一列从1到20。我为第1组定义了大量逻辑。我需要将这些相同的转换以及计算结果适当地传递给下一组2，依此类推。可以将数据框传递给带有输出的函数吗？

遍历Spark Dataframe，保存结果并在上一次迭代中使用结果

newsatan 回答：遍历Spark Dataframe，保存结果并在上一次迭代中使用结果

大家都在问