“对梯度进行求和，从而在所有副本之间同步梯度”。在Tensorflow 1.x或2.x中真的意味着什么？

2024-04-29 • 问答

我在Tensorflow 1.x和2.x中看到了关于多GPU训练的内容。想知道通常如何进行。

每个副本都计算总和。在这种情况下，很多带宽和计算机都是重复的。 2其中一个副本接收所有渐变，计算总和，然后重新分发。

有关重用变量的相关问题。

在有多个副本时重用变量的真正含义是什么？它们是否通过使用基础传输（例如跨副本的NCCL）进行平均而保持同步？如果是这样，如何-高于1或2或其他。

一个有关推理或正向传递的问题。

可以将相同的分发策略用于推理吗？

yang130sam 回答：“对梯度进行求和，从而在所有副本之间同步梯度”。在Tensorflow 1.x或2.x中真的意味着什么？

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

multi-gpu tensorflow

本文链接：https://www.f2er.com/3026885.html