在政策方法（即PPO）的稳定基线3中，如何考虑贴现系数？-解网

问：

我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。

我希望最终的奖励是这样的

R = sum_i 伽玛 ^ （i） * rew_i

但我在主代码中找不到它。谢谢

强化学习折扣基线伽玛

评论

答： 暂无答案

上一个：JavaFX：在画布上绘制一个矩形，只需单击 2 次鼠标

下一个：伽玛编码如何增加阴影细节？