我的rdd如下,
myrdd = sc.parallelize([("A",2),("B",10),("C",4),("A",8),6),10)])
我想找出A,B,C
发生的平均次数。我的意思是,我希望结果如下,
('A',5) # 2+8/2 = 5
('B',8) # 10+6+8/3 = 8
('C',7) # 4+10/2 = 7
如果我使用reduceByKey
,我只会得到总数,
newrdd = myrdd.reduceByKey(lambda x,y: x + y)
list_ = newrdd.collect()
我该如何仅执行rdd操作?