我试图了解与在集群和客户端模式下在 spark-submit 上创建驱动程序相关的事件序列
Spark-提交
假设我在我的机器上,我使用 Yarn 资源管理器进行了 spark-submit,部署模式为 cluster
现在,什么时候创建驱动程序?是在主程序执行之前吗?还是在创建 Spark 会话时?
我的理解:
- spark-submit bash 脚本与资源管理器交互并请求一个容器来运行主程序。
- 一旦容器启动,spark-submit 脚本就会在集群容器上运行主程序。
- 一旦主程序被执行,火花上下文就会与 为执行程序创建容器的资源管理器。
现在,如果这是一个正确的理解,那么当我们在具有集群模式的本地机器上简单地运行 python 脚本时会发生什么?