带有Glue + S3的基于Spark成本的优化器

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3。我在SparkSession#table方法的帮助下使用Spark SQL读取了数据帧。

是否可以使用AWS Glue配置Spark's Cost Based Optimizer(CBO)?

AFAIK,Spark CBO将表级统计信息存储在元存储中。它适用于Hive,但不适用于Spark默认元存储库(嵌入式Derby)。因此,我的困惑是基于一个问题,即如果CBO已经使用Glue作为Spark SQL的元存储,那么它可以使用Glue元存储。我想答案是肯定的,但仍不确定。

linwen86 回答:带有Glue + S3的基于Spark成本的优化器

很不幸,它不受支持。

  

不支持Hive中基于成本的优化。改变价值   不支持将hive.cbo.enable设置为true。

参考:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html

本文链接:https://www.f2er.com/3167272.html

大家都在问