R:将两个csv文件与spark合并

我有两个非常大的csv文件,并且我在R中使用spark。我的第一个文件是以这种方式上传的:

data <- spark_read_csv(sc,"D:/my_file.csv")

使用第一个文件后,我具有以下变量:

Name | Number

具有以下变量的第二个csv文件:

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。在使用spark加载时,我想忽略第二个文件的Surname列。如何合并两个文件,使第二个文件成为第一个文件的连续体?

zwl3074 回答:R:将两个csv文件与spark合并

根据我的收集,您希望摆脱第二个数据帧中的Surname列,并与第一个数据集合并。

spark_read_csv似乎来自我从未使用过的sparklyr,但简单地讲SparkR,我们可以读取如下数据。我非常确定,无论读取数据的方式如何,其余代码都将以相同的方式工作。

> d1 = read.df(".../f1.csv","csv",header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv",header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

然后,这非常简单:

> trimmed_d2 = select(d2,"Name","Number")
> all_the_data = union(d1,trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6
本文链接:https://www.f2er.com/3169690.html

大家都在问