“对梯度进行求和,从而在所有副本之间同步梯度”。在Tensorflow 1.x或2.x中真的意味着什么?

我在Tensorflow 1.x和2.x中看到了关于多GPU训练的内容。想知道通常如何进行。

  1. 每个副本都计算总和。在这种情况下,很多带宽和计算机都是重复的。 2其中一个副本接收所有渐变,计算总和,然后重新分发。

有关重用变量的相关问题。

  1. 在有多个副本时重用变量的真正含义是什么?它们是否通过使用基础传输(例如跨副本的NCCL)进行平均而保持同步?如果是这样,如何-高于1或2或其他。

一个有关推理或正向传递的问题。

  1. 可以将相同的分发策略用于推理吗?
yang130sam 回答:“对梯度进行求和,从而在所有副本之间同步梯度”。在Tensorflow 1.x或2.x中真的意味着什么?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3026885.html

大家都在问