nn.DataParallel - 培训似乎没有开始

2024-05-16 • 问答

我在使用 nn.DistributedDataParallel 时遇到了很多问题，因为我找不到关于如何在单个节点内指定 GPU id 的良好工作示例。出于这个原因，我想从使用 nn.DataParallel 开始，因为它应该更容易实现。根据文档 [https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html]，以下内容应该有效：

device = torch.device('cuda:1' if torch.cuda.is_available() else 'cpu')
model = Model(arg).to(device)
model = torch.nn.DataParallel(model,device_ids=[1,8,9])
for step,(original,keypoints) in enumerate(train_loader):
                    original,keypoints = original.to(device),keypoints.to(device)
                    loss = model(original)
                    optimizer.zero_grad()
                    total_loss.backward()
                    optimizer.step()

但是，当我开始处理模型时，模型会分发到所有三个 GPU，但训练并未开始。 GPU 的 RAM 几乎是空的（除了用于加载模型的内存）。这可以在这里看到（参见 GPU 1、8、9）：

有人能解释一下为什么这不起作用吗？

非常感谢！！

nn.DataParallel - 培训似乎没有开始

zhanglin711 回答：nn.DataParallel - 培训似乎没有开始

大家都在问