提问人:nrg 提问时间:10/26/2023 更新时间:10/26/2023 访问量:16
在政策方法(即PPO)的稳定基线3中,如何考虑贴现系数?
How discount factor is taken into account in stable baselines 3 on policies methods i.e. PPO?
问:
我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。
我希望最终的奖励是这样的
R = sum_i 伽玛 ^ (i) * rew_i
但我在主代码中找不到它。 谢谢
答: 暂无答案
评论