Qlearning Epsilon贪婪探索:Epsilon衰减X固定

我正在教一个代理商走出迷宫,使用Qlearning收集所有苹果。

我读到有可能留下一个固定的epsilon或选择一个epsilon并随着时间的流逝而衰减它。

我找不到每种方法的优点或缺点,如果您能帮助我理解应该使用哪种方法,我想听听更多。

谢谢!

qq58616 回答:Qlearning Epsilon贪婪探索:Epsilon衰减X固定

我将假设您在“ epsilon绿色探索”中指的是epsilon。此参数的目标是控制您的代理对当前政策的信任程度。如果epsilon值较大,您的代理将倾向于忽略其政策,而是选择随机操作。当您的政策比较薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时,人们会随着时间的流逝而衰减ε,以反映他们的政策越来越好,他们想开发而不是探索。

对于每个问题,没有正确的方法来选择ε或其衰减率。最好的方法可能是尝试不同的值。

本文链接:https://www.f2er.com/3133133.html

大家都在问