Apache Spark 何时以及如何创建驱动程序？

2024-05-16 • 问答

我试图了解与在集群和客户端模式下在 spark-submit 上创建驱动程序相关的事件序列

Spark-提交

假设我在我的机器上，我使用 Yarn 资源管理器进行了 spark-submit，部署模式为 cluster

现在，什么时候创建驱动程序？是在主程序执行之前吗？还是在创建 Spark 会话时？

我的理解：

现在，如果这是一个正确的理解，那么当我们在具有集群模式的本地机器上简单地运行 python 脚本时会发生什么？

这比您的问题更能回答您的问题。非常棒的阅读。

假设用户使用“spark-submit”提交作业。

Spark 有两种部署模式：client 和 cluster。

client 模式是您提交 Spark 作业的计算机是驱动程序的模式。那可能是您的本地计算机，或者通常是所谓的“边缘节点”。在这种模式下，驱动程序与许多其他软件共享其资源，并且大多数时候它不是最佳和可靠的（想想你提交作业的情况，同时在计算机上运行超重的东西）
cluster 模式是 YARN 在集群的可用节点中选择一个节点并使其成为驱动程序的模式。所以它会尽量挑选最好的，你不必再担心它的资源了。

当我们在集群模式下在本地机器上简单地运行 python 脚本时会发生什么？

您现在可能对这个问题的答案有所了解：如果您只是在本地机器上运行 python 脚本，它将是 client 模式，spark 作业将使用该本地计算机资源作为 Spark 的一部分计算。另一方面，在 cluster 模式下，另一台计算机将作为驱动程序运行，而不是您的本地计算机。