线伽玛 问答列表

在政策方法(即PPO)的稳定基线3中,如何考虑贴现系数?

作者:nrg 提问时间:10/26/2023

我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。 我希望最终的奖励是这样的 R = sum_i 伽玛 ^ (i) * rew_i 但我在主代码中找不到它。 谢谢...


共1条 当前第1页