我有两个非常大的csv文件,并且我在R中使用spark。我的第一个文件是以这种方式上传的:
data <- spark_read_csv(sc,"D:/my_file.csv")
使用第一个文件后,我具有以下变量:
Name | Number
具有以下变量的第二个csv文件:
Name | Number | Surname
您还可以看到第二个文件比第一个文件多一个变量。在使用spark加载时,我想忽略第二个文件的Surname
列。如何合并两个文件,使第二个文件成为第一个文件的连续体?