带有Glue + S3的基于Spark成本的优化器

2024-05-08 • 问答

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3。我在SparkSession#table方法的帮助下使用Spark SQL读取了数据帧。

是否可以使用AWS Glue配置Spark's Cost Based Optimizer（CBO）？

AFAIK，Spark CBO将表级统计信息存储在元存储中。它适用于Hive，但不适用于Spark默认元存储库（嵌入式Derby）。因此，我的困惑是基于一个问题，即如果CBO已经使用Glue作为Spark SQL的元存储，那么它可以使用Glue元存储。我想答案是肯定的，但仍不确定。

很不幸，它不受支持。

不支持Hive中基于成本的优化。改变价值不支持将hive.cbo.enable设置为true。

本文链接：https://www.f2er.com/3167272.html