如果存储桶具有严格的日期结构,如何从红移频谱中仅提取存储桶中的一组特定文件夹?
我的s3结构看起来像这样s3://mybucket/stream2020/03/27/23/file3
所以s3://mybucket/stream[year]/[month]/[day]/[hour]/file[1...n]
我想干一份新工作,
insert into [data_lake_table]
select * from spectrum.[external_table]
where [s3_folder_date]>[last_job_run_date]
and id not in (select id from [data_lake_table])
我唯一的选择是手动分区外部表吗?