Spark内部查询导致大量分区

2024-05-03 • 问答

我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成？因此伸出手来激发广泛的社区。 p>

考虑以下简单查询

select emp_name,emp_id,emp_addr from employee where emp_dob in (select cal_dt from calendar where mon = 'oct' and year=1990)

在这里，我们试图获取1990年出生月份为'Oct'的所有雇员。与下一个相比，此查询会导致数千个分区

select emp_name,emp_addr from employee where emp_dob in ('1990-10-01','1990-10-02','1990-10-03'....'1990-10-31')

有人可以帮助我了解这种行为吗？

此问题已在Spark 3.0中的https://issues.apache.org/jira/browse/SPARK-11150中进行了处理。希望有帮助。

本文链接：https://www.f2er.com/3126419.html