当前位置: 主页 > 学术动态 >

更精细的梯度信息实现更有效和高效的探索

点击数:   更新日期: 2023-08-24

中文题目:更精细的梯度信息实现更有效和高效的探索

论文题目More Effective and Efficient Exploration via More Refined Gradient Information

录用期刊/会议:【Applied Intelligence】 (JCR Q2)

原文DOI DOI: 10.1007/s10489-023-04955-0

原文链接:DOI: 10.1007/s10489-023-04955-0

录用/见刊时间:2023年8月8日星期二

封面图片:



封面摘要:

探索是强化学习不可或缺的部分。虽然随机噪声探索被广泛使用,但基于动作梯度的方法鲜有研究。我们提出了一种新的强化学习框架,利用探索教师结合动作梯度的一阶和二阶信息。我们的注意力预测方法解决了Q值过高估计问题。基于此框架,我们开发了3E-RGI算法,采用新的阶段更新方法提高训练效率。在六个DMControl环境中,3E-RGI在连续控制问题上优于其他算法。

作者列表

1) 陈修言 中国石油大学(北京)信息科学与工程学院 控制科学与工程 研21

2) 刘建伟 中国石油大学(北京)信息科学与工程学院 自动化系 教师

文章简介:

摘要:

探索是强化学习中至关重要的组成部分。尽管许多研究采用随机噪声进行探索,但很少有研究基于动作梯度的探索方法。常用的随机噪声探索方法存在几个弱点,例如遇到维度灾难的问题。相比之下,基于动作梯度的方法仅使用一阶信息,因此信息利用不足。为了弥补这一差距,我们引入了一种新颖的强化学习框架,该框架使用探索教师来指导智能体进行探索。该框架同时使用动作梯度的一阶和二阶信息。此外,我们框架中的注意力预测方法旨在解决Q值过高估计的问题。基于我们的新框架和TD3算法,我们提出了一种off-policy确定性演员-评论家算法,命名为“更精细的梯度信息实现更有效和高效的探索”(3E-RGI)。我们的3E-RGI算法使用一种新的阶段更新方法来提高训练效率。我们在六个DMControl套件环境上将3E-RGI与其他五种off-policy算法进行了比较。实验表明,我们的算法在来自DMControl套件的各种连续控制问题上优于当前的强化学习算法。

背景与动机:

近几十年来,强化学习(RL)取得了重大进展,尤其是与深度学习相结合形成了深度强化学习(DRL)。DRL在人工智能研究中广受欢迎,可用于推荐系统、医疗健康、自动驾驶、机器人控制等领域。强化学习在控制理论中被广泛用于处理复杂的顺序决策问题。

在强化学习中,代理开始时通常对环境和任务缺乏先前知识。因此,代理需要与环境进行交互,通过行动和反馈进行试错,从而不断优化自身行为。这个交互过程被称为探索。探索是强化学习中的关键组成部分,有无向和有向两种方法。无向探索方法是代理随机选择探索性行动,而有向探索方法利用策略或学习的模型来引导探索。

然而,传统的随机探索方法在复杂环境中表现不佳,因此引入了有向探索方法,如基于梯度信息的方法。然而,现有的基于梯度的有向探索方法通常只使用一阶梯度信息,而缺乏更高阶的信息。为了填补这一空白,该文提出了一个新的强化学习框架,使用探索教师模块来引导代理探索环境,同时结合了一阶和二阶梯度信息。引入二阶梯度信息可以更有效地引导代理探索高维复杂动作空间,从而加速学习过程。

此外,文中还提出了注意力预测方法来解决Q值被高估的问题,以及分阶段更新方法来提高训练效率。最终,该文提出的框架在现有的off-policy确定性演员-评论家算法上进行了扩展,形成了更有效和高效的探索算法。

设计与实现:

完整的3E-RGI 算法伪代码如Algorithm 1所示:





3E-RGI 算法的框架图如图1所示:



1. 3E-RGI Framework architecture

实验结果及分析:

分别在hopper-stand, hopper-hop, finger-spin, fish-upright, walker-walk, point_mass-easy这六个环境的实验结果对比结果如图2所示(以hopper-stand为例)



超参数调节实验结果如图3所示(以hopper-stand为例)



3. Learning curves of tuning hyperparameters on hopper-stand environment

结论:

强化学习中的有效探索至关重要,但现有方法大多只利用一阶信息。为此,我们提出3E-RGI,一种off-policy确定性演员-评论家算法,包含三个关键创新:探索教师模块,注意力预测方法和分阶段更新策略。探索教师模块结合动作梯度的一阶和二阶信息,引导探索方向。注意力预测方法抵消高估的Q值,通过引入悲观预测Q值来平衡。分阶段更新方法则加速更新速度,提升训练效率。

对比实验结果表明,与其他off-policy算法相比,我们的算法在奖励和收敛速度方面表现更佳。消融实验证实,探索教师模块和注意力预测方法对性能至关重要,缺失会显著降低表现。此外,我们的算法在不同超参数下表现稳健。

通讯作者简介:

刘建伟。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。在国际国内期刊上和国际国内会议上发表学术研究论文260多篇,其中三大检索200多篇。