强化网络中的价值与政策培训

2024-05-04 • 问答

我正在阅读一些人的一些受Alpha Zero启发的代码，并且我已经看过TicTactoe，Chess，Go等游戏。我开始至少从较高的层次上了解了Monte Carlo搜索树。对于TicTactoe＆Go这样的游戏，政策网络对我来说很有意义。本质上，输出策略上的softmax表示“最佳移动”对应于在给定点具有最大值的网格点。

我的问题是跳棋或国际象棋等游戏。您拥有的作品在每个点都可以以许多不同的方式移动。一个包含64个策略问题的输出网格是不够的。我看不到如何将这些输出映射到一组静态输出。因此，我在考虑这一点，我应该简单地比较许多板输入的不同值输出，以确定神经网络认为最好的输出。输出值最高的一个获胜。

有什么想法可以对这种网络的策略输出进行编码吗？

编辑：所以我想出了Alpha Zero是如何做到的。它们对每个零件从每个位置可能出现的每个偏移量进行编码。这导致成千上万的输出（实际上是8 * 8 * 73）。这些位置中的大量是不可能的，例如从位置0,0偏移0，-7。因此，在网络计算出softmax输出之后，对于给定在每个正方形上的棋子，它将对所有不可能的移动执行另一个屏蔽步骤，然后重新计算softmax。我个人将尝试将掩码添加为输入，并查看是否可以使用它来帮助网络在一次计算softmax的基础上做出更好的动作。

强化网络中的价值与政策培训

sdqzangel 回答：强化网络中的价值与政策培训

大家都在问