缩放或将 numpy 数组的每个条目映射到另一个值范围
作者:Rezwan Khan 提问时间:11/12/2023
我正在尝试将强化学习连续动作值映射到实际输出。range(-1.0,1.0) 假设我有 numpy 操作数组。数组的值可以是 和 。actions = np.array([-1., 0.2, -0....
强化学习 问答列表
作者:Rezwan Khan 提问时间:11/12/2023
我正在尝试将强化学习连续动作值映射到实际输出。range(-1.0,1.0) 假设我有 numpy 操作数组。数组的值可以是 和 。actions = np.array([-1., 0.2, -0....
作者:白茶三斤 提问时间:9/12/2023
我正在运行深度强化学习代码,但出现以下错误: RuntimeError: Index tensor must have the same number of dimensions as self t...
作者:tirilazat 提问时间:9/22/2023
我正在使用 PPO 实现在自定义环境中训练代理。有没有办法创建自定义回调,在训练期间每次重置环境后执行?stable_baselines3 文档中列出了几个自定义事件回调,但它们在环境重置后均未生效...
作者:jroc 提问时间:9/29/2023
尝试在悬崖行走的健身房环境中实现 td lambda,但我得到的 V 函数值爆炸,可能是因为溢出。有趣的是,溢出仅在 lambda=1 时发生。蟒蛇:3.11.4。使用此环境 https://gymn...
作者:nrg 提问时间:10/26/2023
我想了解伽马对学习的政策有何影响。我不明白最终奖励是线性折扣还是指数折扣。 我希望最终的奖励是这样的 R = sum_i 伽玛 ^ (i) * rew_i 但我在主代码中找不到它。 谢谢...
作者:Bernardo Olisan 提问时间:11/10/2023
我从头开始为离散环境实施了近端策略优化 (PPO)。该算法涉及初始化策略网络、状态值函数和动作值函数(作为神经网络函数近似器)。该过程包括策略推出,其中策略网络和值函数使用梯度下降进行更新,并在每个时...