sparklyr软件包中的sdf_bind函数如何工作?

最近,我对如何使用sparklyr::spark_read*有效地将本地文件读入spark感到困惑。因此,我创建了一个for循环,其中每个步骤都将创建占整个数据集1个比例的临时tbl_spark,表示1天数据,如下所示:

for (i in seq) {
    tmp_par <- spark_read_parquet(
        sc,paste0("spark_dataframe_name_",i),paste0("path",i,"/*.parquet"),overwrite = T)
    table_name <- sdf_bind_rows(table_name,tmp_par)
}

with table_name以前是通过使用spark_read_parquet来创建一部分数据集(i = 0)

假设整个数据集将包含30天的数据。我只是想知道sdf_bind*函数是否会在每个步骤中先加载table_name然后将rbind加载到tmp_par中,这意味着第1天将与第2天绑定在一起,并且这也意味着该内存仅需携带2天的数据就可以绑定到下一步。还是要等到循环结束(i = 30)才能将rbind的所有30天数据都存储到table_name中?

hongge6767 回答:sparklyr软件包中的sdf_bind函数如何工作?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2859652.html

大家都在问