强化学习知识经验-解网

作者：Rezwan Khan 提问时间：11/12/2023

我正在尝试将强化学习连续动作值映射到实际输出。range(-1.0,1.0) 假设我有 numpy 操作数组。数组的值可以是和。actions = np.array([-1., 0.2, -0....

作者：白茶三斤 提问时间：9/12/2023

我正在运行深度强化学习代码，但出现以下错误： RuntimeError: Index tensor must have the same number of dimensions as self t...

作者：tirilazat 提问时间：9/22/2023

我正在使用 PPO 实现在自定义环境中训练代理。有没有办法创建自定义回调，在训练期间每次重置环境后执行？stable_baselines3 文档中列出了几个自定义事件回调，但它们在环境重置后均未生效...

作者：jroc 提问时间：9/29/2023

尝试在悬崖行走的健身房环境中实现 td lambda，但我得到的 V 函数值爆炸，可能是因为溢出。有趣的是，溢出仅在 lambda=1 时发生。蟒蛇：3.11.4。使用此环境 https://gymn...

作者：nrg 提问时间：10/26/2023

我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。我希望最终的奖励是这样的 R = sum_i 伽玛 ^ （i） * rew_i 但我在主代码中找不到它。谢谢...

作者：Bernardo Olisan 提问时间：11/10/2023

我从头开始为离散环境实施了近端策略优化（PPO）。该算法涉及初始化策略网络、状态值函数和动作值函数（作为神经网络函数近似器）。该过程包括策略推出，其中策略网络和值函数使用梯度下降进行更新，并在每个时...