DDPG算法中AC学习率设置对训练效果的影响

发表于 2023-10-13 更新于 2024-04-20 分类于 Research 阅读次数： Waline：本文字数： 1.2k 阅读时长 ≈ 1 分钟

深度强化学习算法相比于深度学习，有更多的超参数需要调节，本文主要对DDPG算法中的actor网络和critic网络学习率的设置对学习效果的影响进行了探讨。

最近在复现DDPG算法时，首先根据论文的算法流程进行复现，完成后在连续环境Pendulum-v1上进行测试，但是总是训练效果不好，算法的收敛结构很差，如图1所示。

图1 actor和critic的lr均为3e-4的训练结果，左图为critic loss, 右图为reward曲线

于是找了很多该算法的复现来对比到底是哪里出了问题。花了大量的时间确认了复现的DDPG算法的决策和更新流程都没有问题之后，我把目光转向了超参数的设定上，最终发现critic的学习率通常需要设置的比actor大一点。在将critic net的学习率改大之后，DDPG算法终于表现出很好的性能，得到了漂亮的reward曲线，如图2所示。

图2 修改critic lr之后的学习效果，左图为critic loss，右图为reward曲线

在解决了该问题后，引出了一个问题，DDPG算法中的actor和critic的学习率为什么需要不同才可我使该算法很好的work。为此我也在网上找到了关于该问题的探讨。总结下来大概有如下几种解释：

actor和critic的学习率是两个需要调整的超参数，这样设置是在实践中发现比较好的结果
如果actor比critic更新的更快，那么估计的Q值不能够真实反映动作的价值，因为critic的Q值函数是基于过去的策略估计出的
因为actor输出的是具体动作，通常是bounded，因此学习率可以小一点，而critic学习的目标是折扣奖励的期望，通常是无界的，需要学习率大一点。