我有一个包含两列id
和一个tfidfvector(org.apache.spark.mllib.linlag.Vector)
的数据框。
我想将其转换为rdd[(id,Vector)]
,然后将其转换为坐标矩阵。
PS:由于限制而无法共享数据。
我尝试了df.As [(Long,Vector)]无效
您可以使用
将数据帧转换为RDD[Row]
rdd = df.rdd
之后,您可以使用地图重构RDD,例如
rdd = df.rdd.map(row => (row(1),row(2)))