R：将两个csv文件与spark合并

2024-04-23 • 问答

我有两个非常大的csv文件，并且我在R中使用spark。我的第一个文件是以这种方式上传的：

data <- spark_read_csv(sc,"D:/my_file.csv")

使用第一个文件后，我具有以下变量：

Name | Number

具有以下变量的第二个csv文件：

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。在使用spark加载时，我想忽略第二个文件的Surname列。如何合并两个文件，使第二个文件成为第一个文件的连续体？

根据我的收集，您希望摆脱第二个数据帧中的Surname列，并与第一个数据集合并。

spark_read_csv似乎来自我从未使用过的sparklyr，但简单地讲SparkR，我们可以读取如下数据。我非常确定，无论读取数据的方式如何，其余代码都将以相同的方式工作。

> d1 = read.df(".../f1.csv","csv",header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv",header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

然后，这非常简单：

> trimmed_d2 = select(d2,"Name","Number")
> all_the_data = union(d1,trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6

R：将两个csv文件与spark合并

zwl3074 回答：R：将两个csv文件与spark合并

大家都在问