Pytorch DataParallel如何影响相同批量的学习率?

鉴于PyTorch DataParallel在GPU之间拆分数据,此过程是否会影响学习率参数?
假设我可以在16GB GPU实例上将batch_size=200lr=0.01一起使用。现在切换到4x8GB实例,并选择使用batch_size=200。 PyTorch DataParallel将为每个GPU将此批次拆分为50个mini_batch并执行正向广告反向传递。随着我有效的batch_size减小,我是否应该减小lr

tickerly 回答:Pytorch DataParallel如何影响相同批量的学习率?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2350655.html

大家都在问