我正在尝试使用PySpark查找相邻元组列表之间的平均差。
例如,如果我有这样的RDD
vals = [(2,110),(2,130),120),(3,200),206),(4,150),160),170)]
我想找到每个键的平均差异。
例如,键值“ 2”
平均差异为(abs(110-130)+ abs(130-120))/ 2 = 15。
到目前为止,这是我的方法。我正在尝试更改平均计算代码以适应此要求。但这似乎不起作用。
from pyspark import SparkContext
aTuple = (0,0)
interval = vals.aggregateByKey(aTuple,lambda a,b: (abs(a[0] - b),a[1] + 1),b: (a[0] + b[0],a[1] + b[1]))
finalResult = interval.mapValues(lambda v: (v[0]/v[1])).collect()
我想使用RDD函数,不使用Spark SQL或任何其他附加程序包来完成此操作。
什么是最好的方法?
如有任何疑问,请告诉我。
谢谢您的时间。