我试图了解Spark的评估。
有一个表table_name,该表由partition_column分区。这是一个以实木复合地板格式存储的外部表。 现在,考虑以下行
val df = spark.read.table(table_name).filter(partition_column=partition_value)
由于Spark的懒惰评估,它将应用谓词下推并且仅扫描其中partition_column = partition_value的文件夹?还是要读取整个表格并稍后过滤掉?