强化网络中的价值与政策培训

我正在阅读一些人的一些受Alpha Zero启发的代码,并且我已经看过TicTactoe,Chess,Go等游戏。我开始至少从较高的层次上了解了Monte Carlo搜索树。对于TicTactoe&Go这样的游戏,政策网络对我来说很有意义。本质上,输出策略上的softmax表示“最佳移动”对应于在给定点具有最大值的网格点。

我的问题是跳棋或国际象棋等游戏。您拥有的作品在每个点都可以以许多不同的方式移动。一个包含64个策略问题的输出网格是不够的。我看不到如何将这些输出映射到一组静态输出。因此,我在考虑这一点,我应该简单地比较许多板输入的不同值输出,以确定神经网络认为最好的输出。输出值最高的一个获胜。

有什么想法可以对这种网络的策略输出进行编码吗?

编辑:所以我想出了Alpha Zero是如何做到的。它们对每个零件从每个位置可能出现的每个偏移量进行编码。这导致成千上万的输出(实际上是8 * 8 * 73)。这些位置中的大量是不可能的,例如从位置0,0偏移0,-7。因此,在网络计算出softmax输出之后,对于给定在每个正方形上的棋子,它将对所有不可能的移动执行另一个屏蔽步骤,然后重新计算softmax。我个人将尝试将掩码添加为输入,并查看是否可以使用它来帮助网络在一次计算softmax的基础上做出更好的动作。

sdqzangel 回答:强化网络中的价值与政策培训

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3142966.html

大家都在问