使用Dask的资源管理器在集群上对独立Python脚本进行GPU感知调度

我正在寻找一个简单的资源管理器。我有一小组计算机,每台计算机都有不同的特征(内存大小和GPU数量)。我正在这些机器上以独立python脚本的形式运行ML训练算法。

在单个计算机上执行一个脚本,不需要分布式计算。我事先知道要执行的特定脚本需要多少内存和多少GPU,以便可以轻松地将此信息传递给资源管理器。

我正在寻找一个资源管理器,该资源管理器可帮助我在执行时在具有足够可用内存和gpu容量的节点上安排这些Python脚本。

我已经检查过Dask distributed Worker Resources。我确实需要抽象资源的概念,但是无法确定是否可以将其用作执行独立python脚本的资源管理器。您可以在这里给我一些指导吗?

我对Apache Spark有相当的经验,但是从Spark 2开始,似乎无法实现GPU感知的调度。我已经检查了Mesos + Chronos,与这个用例的简单性相比,事情变得相当复杂。 K8S似乎更加复杂。

我想知道这是否可以在Dask或任何其他技术中以简单,直接的方式完成?

liran911 回答:使用Dask的资源管理器在集群上对独立Python脚本进行GPU感知调度

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3152639.html

大家都在问