在政策方法(即PPO)的稳定基线3中,如何考虑贴现系数?

How discount factor is taken into account in stable baselines 3 on policies methods i.e. PPO?

提问人:nrg 提问时间:10/26/2023 更新时间:10/26/2023 访问量:16

问:

我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。

我希望最终的奖励是这样的

R = sum_i 伽玛 ^ (i) * rew_i

但我在主代码中找不到它。 谢谢

强化学习 折扣 线伽玛

评论


答: 暂无答案