Spark-Sql 自定义元存储

在 HIVE 中,我们可以设置不同的 RDBM 作为元存储,让 HIVE 将所有元数据存储在其中。 除此之外,通过hiveserver2,我们可以让HIVE监听请求并提供服务。

同样,有很多文档说 Spark-SQL 也可以以类似的方式使用。我们可以将 Oracle(一个示例)设置为 Spark-Sql 的元存储吗?如果是的话,有人可以帮我如何设置。

谢谢!

moyear 回答:Spark-Sql 自定义元存储

Spark 使用 Hive Metastore 作为外部 Metastore,您可以选择自己的数据库,因此 Oracle 数据库很好。否则 Spark 使用 Derby DB,这适用于您自己的研究单用户伪或小型非生产集群。您需要为外部 Metastore 进行适当的配置。

在 EMR 上的 AWS 中,您可以使用 AWS Glue 作为外部 Spark Metastore。

一些来自供应商的发行版也在这里强加了一些细节。

本文链接:https://www.f2er.com/6769.html

大家都在问