将scala数据帧转换为rdd [(Long,Vector)]

我有一个包含两列id和一个tfidfvector(org.apache.spark.mllib.linlag.Vector)的数据框。

我想将其转换为rdd[(id,Vector)],然后将其转换为坐标矩阵。

PS:由于限制而无法共享数据。

我尝试了df.As [(Long,Vector)]无效

lihuizi0806 回答:将scala数据帧转换为rdd [(Long,Vector)]

您可以使用

将数据帧转换为RDD[Row]
rdd = df.rdd

之后,您可以使用地图重构RDD,例如

rdd = df.rdd.map(row => (row(1),row(2)))
本文链接:https://www.f2er.com/3095375.html

大家都在问