Spark内部查询导致大量分区

我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成?因此伸出手来激发广泛的社区。​​ p>

考虑以下简单查询

select emp_name,emp_id,emp_addr from employee where emp_dob in (select cal_dt from calendar where mon = 'oct' and year=1990)

在这里,我们试图获取1990年出生月份为'Oct'的所有雇员。与下一个相比,此查询会导致数千个分区

select emp_name,emp_addr from employee where emp_dob in ('1990-10-01','1990-10-02','1990-10-03'....'1990-10-31')

有人可以帮助我了解这种行为吗?

mattkk 回答:Spark内部查询导致大量分区

此问题已在Spark 3.0中的https://issues.apache.org/jira/browse/SPARK-11150中进行了处理。希望有帮助。

本文链接:https://www.f2er.com/3126419.html

大家都在问