使用Dask的资源管理器在集群上对独立Python脚本进行GPU感知调度

2024-05-20 • 问答

我正在寻找一个简单的资源管理器。我有一小组计算机，每台计算机都有不同的特征（内存大小和GPU数量）。我正在这些机器上以独立python脚本的形式运行ML训练算法。

在单个计算机上执行一个脚本，不需要分布式计算。我事先知道要执行的特定脚本需要多少内存和多少GPU，以便可以轻松地将此信息传递给资源管理器。

我正在寻找一个资源管理器，该资源管理器可帮助我在执行时在具有足够可用内存和gpu容量的节点上安排这些Python脚本。

我已经检查过Dask distributed Worker Resources。我确实需要抽象资源的概念，但是无法确定是否可以将其用作执行独立python脚本的资源管理器。您可以在这里给我一些指导吗？

我对Apache Spark有相当的经验，但是从Spark 2开始，似乎无法实现GPU感知的调度。我已经检查了Mesos + Chronos，与这个用例的简单性相比，事情变得相当复杂。 K8S似乎更加复杂。

我想知道这是否可以在Dask或任何其他技术中以简单，直接的方式完成？