Qlearning Epsilon贪婪探索：Epsilon衰减X固定

2024-05-15 • 问答

我正在教一个代理商走出迷宫，使用Qlearning收集所有苹果。

我读到有可能留下一个固定的epsilon或选择一个epsilon并随着时间的流逝而衰减它。

我找不到每种方法的优点或缺点，如果您能帮助我理解应该使用哪种方法，我想听听更多。

谢谢！

我将假设您在“ epsilon绿色探索”中指的是epsilon。此参数的目标是控制您的代理对当前政策的信任程度。如果epsilon值较大，您的代理将倾向于忽略其政策，而是选择随机操作。当您的政策比较薄弱时，尤其是在培训开始时，这种探索通常是一个好主意。有时，人们会随着时间的流逝而衰减ε，以反映他们的政策越来越好，他们想开发而不是探索。

对于每个问题，没有正确的方法来选择ε或其衰减率。最好的方法可能是尝试不同的值。

Qlearning Epsilon贪婪探索：Epsilon衰减X固定

qq58616 回答：Qlearning Epsilon贪婪探索：Epsilon衰减X固定

大家都在问