强化学习 问答列表

缩放或将 numpy 数组的每个条目映射到另一个值范围

作者:Rezwan Khan 提问时间:11/12/2023

我正在尝试将强化学习连续动作值映射到实际输出。range(-1.0,1.0) 假设我有 numpy 操作数组。数组的值可以是 和 。actions = np.array([-1., 0.2, -0....

RuntimeError:索引张量必须具有与自张量相同的维数

作者:白茶三斤 提问时间:9/12/2023

我正在运行深度强化学习代码,但出现以下错误: RuntimeError: Index tensor must have the same number of dimensions as self t...

StableBaselines3 - 如何在 env.reset() 上创建回调

作者:tirilazat 提问时间:9/22/2023

我正在使用 PPO 实现在自定义环境中训练代理。有没有办法创建自定义回调,在训练期间每次重置环境后执行?stable_baselines3 文档中列出了几个自定义事件回调,但它们在环境重置后均未生效...

Python Overflow 实现 TD 学习

作者:jroc 提问时间:9/29/2023

尝试在悬崖行走的健身房环境中实现 td lambda,但我得到的 V 函数值爆炸,可能是因为溢出。有趣的是,溢出仅在 lambda=1 时发生。蟒蛇:3.11.4。使用此环境 https://gymn...

在政策方法(即PPO)的稳定基线3中,如何考虑贴现系数?

作者:nrg 提问时间:10/26/2023

我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。 我希望最终的奖励是这样的 R = sum_i 伽玛 ^ (i) * rew_i 但我在主代码中找不到它。 谢谢...

近端策略优化实现不收敛:离散环境

作者:Bernardo Olisan 提问时间:11/10/2023

我从头开始为离散环境实施了近端策略优化 (PPO)。该算法涉及初始化策略网络、状态值函数和动作值函数(作为神经网络函数近似器)。该过程包括策略推出,其中策略网络和值函数使用梯度下降进行更新,并在每个时...


共6条 当前第1页