训练期间,深层RL代理输出已偏离预期值

我正在尝试训练DDPG深层RL代理以控制电力系统的稳定性。 代理的输出与预期值有很大的偏移,并且无论情节数目如何,它永远都不会学会单独获得这些值。

我该怎么办?

jscj4567 回答:训练期间,深层RL代理输出已偏离预期值

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3081650.html

大家都在问