鉴于PyTorch DataParallel
在GPU之间拆分数据,此过程是否会影响学习率参数?
假设我可以在16GB GPU实例上将batch_size=200
与lr=0.01
一起使用。现在切换到4x8GB实例,并选择使用batch_size=200
。 PyTorch DataParallel
将为每个GPU将此批次拆分为50个mini_batch并执行正向广告反向传递。随着我有效的batch_size减小,我是否应该减小lr
?
Pytorch DataParallel如何影响相同批量的学习率?
•
问答
tickerly 回答:Pytorch DataParallel如何影响相同批量的学习率?
暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com