点击数: 更新日期: 2023-08-24
中文题目:更精细的梯度信息实现更有效和高效的探索
论文题目:More Effective and Efficient Exploration via More Refined Gradient Information
录用期刊/会议:【Applied Intelligence】 (JCR Q2)
原文DOI: DOI: 10.1007/s10489-023-04955-0
原文链接:DOI: 10.1007/s10489-023-04955-0
录用/见刊时间:2023年8月8日星期二
封面图片:
封面摘要:
探索是强化学习不可或缺的部分。虽然随机噪声探索被广泛使用,但基于动作梯度的方法鲜有研究。我们提出了一种新的强化学习框架,利用探索教师结合动作梯度的一阶和二阶信息。我们的注意力预测方法解决了Q值过高估计问题。基于此框架,我们开发了3E-RGI算法,采用新的阶段更新方法提高训练效率。在六个DMControl环境中,3E-RGI在连续控制问题上优于其他算法。
作者列表:
1) 陈修言 中国石油大学(北京)信息科学与工程学院 控制科学与工程 研21
2) 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 教师
文章简介:
摘要:
探索是强化学习中至关重要的组成部分。尽管许多研究采用随机噪声进行探索,但很少有研究基于动作梯度的探索方法。常用的随机噪声探索方法存在几个弱点,例如遇到维度灾难的问题。相比之下,基于动作梯度的方法仅使用一阶信息,因此信息利用不足。为了弥补这一差距,我们引入了一种新颖的强化学习框架,该框架使用探索教师来指导智能体进行探索。该框架同时使用动作梯度的一阶和二阶信息。此外,我们框架中的注意力预测方法旨在解决Q值过高估计的问题。基于我们的新框架和TD3算法,我们提出了一种off-policy确定性演员-评论家算法,命名为“更精细的梯度信息实现更有效和高效的探索”(3E-RGI)。我们的3E-RGI算法使用一种新的阶段更新方法来提高训练效率。我们在六个DMControl套件环境上将3E-RGI与其他五种off-policy算法进行了比较。实验表明,我们的算法在来自DMControl套件的各种连续控制问题上优于当前的强化学习算法。
背景与动机:
近几十年来,强化学习(RL)取得了重大进展,尤其是与深度学习相结合形成了深度强化学习(DRL)。DRL在人工智能研究中广受欢迎,可用于推荐系统、医疗健康、自动驾驶、机器人控制等领域。强化学习在控制理论中被广泛用于处理复杂的顺序决策问题。
在强化学习中,代理开始时通常对环境和任务缺乏先前知识。因此,代理需要与环境进行交互,通过行动和反馈进行试错,从而不断优化自身行为。这个交互过程被称为探索。探索是强化学习中的关键组成部分,有无向和有向两种方法。无向探索方法是代理随机选择探索性行动,而有向探索方法利用策略或学习的模型来引导探索。
然而,传统的随机探索方法在复杂环境中表现不佳,因此引入了有向探索方法,如基于梯度信息的方法。然而,现有的基于梯度的有向探索方法通常只使用一阶梯度信息,而缺乏更高阶的信息。为了填补这一空白,该文提出了一个新的强化学习框架,使用探索教师模块来引导代理探索环境,同时结合了一阶和二阶梯度信息。引入二阶梯度信息可以更有效地引导代理探索高维复杂动作空间,从而加速学习过程。
此外,文中还提出了注意力预测方法来解决Q值被高估的问题,以及分阶段更新方法来提高训练效率。最终,该文提出的框架在现有的off-policy确定性演员-评论家算法上进行了扩展,形成了更有效和高效的探索算法。
设计与实现:
完整的3E-RGI 算法伪代码如Algorithm 1所示:
3E-RGI 算法的框架图如图1所示:
图1. 3E-RGI Framework architecture
实验结果及分析:
分别在hopper-stand, hopper-hop, finger-spin, fish-upright, walker-walk, point_mass-easy这六个环境的实验结果对比结果如图2所示(以hopper-stand为例):
超参数调节实验结果如图3所示(以hopper-stand为例):
图3. Learning curves of tuning hyperparameters on hopper-stand environment
结论:
强化学习中的有效探索至关重要,但现有方法大多只利用一阶信息。为此,我们提出3E-RGI,一种off-policy确定性演员-评论家算法,包含三个关键创新:探索教师模块,注意力预测方法和分阶段更新策略。探索教师模块结合动作梯度的一阶和二阶信息,引导探索方向。注意力预测方法抵消高估的Q值,通过引入悲观预测Q值来平衡。分阶段更新方法则加速更新速度,提升训练效率。
对比实验结果表明,与其他off-policy算法相比,我们的算法在奖励和收敛速度方面表现更佳。消融实验证实,探索教师模块和注意力预测方法对性能至关重要,缺失会显著降低表现。此外,我们的算法在不同超参数下表现稳健。
通讯作者简介:
刘建伟。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇,其中三大检索200多篇。