当前位置: 主页 > 学术动态 >

一种基于强化学习的直流分析自适应步长控制策略

点击数:   更新日期: 2022-10-18

中文题目:一种基于强化学习的直流分析自适应步长控制策略

论文题目Adaptive Stepping PTA for DC Analysis Based on Reinforcement Learning

发表会议IEEE Transactions on Circuits and Systems II: Express BriefsCCF B类)

作者列表:

1)董毅超 东南大学 自动化学院 20

2) 东南大学 自动化学院

3) 中国石油大学(北京) 信息科学与工程学院 计算机系

4) 东南大学 信息科学与工程学院

5 东南大学 自动化学院

6孙长银 东南大学 自动化学院

背景与动机:

有效求解大规模非线性电路的DC工作点至关重要且极具挑战性。伪瞬态分析 (PTA) 是业界广泛使用且有前途的DC求解器,其中步长控制策略对PTA收敛和仿真效率非常重要。 在本文中,提出了一种基于PPO强化学习(RL)增强的步长控制策略。它设计了具有随机策略和在线自适应缩放的基于Actor-Critic的双智能体结构,以智能评估PTA收敛状态,并自适应调整前向和回退时间步长大小。其中,智能体以近似策略优化(PPO)为基础实现。实验结果表明,显着通过提出的RL增强步进策略实现了对先前步进方法的效率加速和收敛改进。

算法设计与实现:

1高斯分布的随机动作

近似策略优化(PPO)使用随机梯度上升的多个epoch来执行每个策略更新。这些方法具有信任区域方法的稳定性和可靠性,实现起来相比其他强化学习算法来说要简单,并且具有更好的整体性能。如图1所示,展示了我们提出算法的总体流程,主要包括仿真器进行PTA迭代构成的环境以及基于PPO的双智能体。图1顶部子图中所示的解用于获得仿真状态,该状态输入到底部子图中提出的双智能体网络。然后底部子图的 Actor 输具有均值和协方差的符合高斯分布的随机动作生成 PTA 前向或后退步长的下一个步长并且该步长反馈到顶部子图



1具有随机输出的双Actor-Critic智能体的在线自适应缩放PTA步进。

2基于动量的自适应缩放

在实际电路仿真中,电路的结构和规模测试电路与训练电路不同数据集。 因此在线学习和自适应调整步长对于新的测试电路非常重要。在这项工作中,步长的在线自适应缩放为缩放参数是使用如下公式中动量的概念设计的。

其中是使分母为正值的值。 是最大放大倍数的动量,与一阶矩的加权平均值有关,二阶矩的加权平均值此时,基于动量的前进智能体步进策略如下公式:

同样的,我们也可以得到基于动量的回退智能体的步进策略:

其中,都是常量的超参数,用于保证输出值的合法性。

实验:

(1)实验配置

我们在配备 Intel i7-10750H CPU、32 GB 内存的 64 位 Ubuntu 18.04 计算机上进行实验。 GeForce RTX 2060 GPU 用于加速双智能网络计算,提出的步进策略需要更多的计算资源。

(2)实验结果

为了全面评估所提出的强化学习步进策略的性能,它在典型的 PTA 方法(DPTA,通常被认为是 SOTA PTA)中实现,并与两种广泛使用且有效的时间步长控制方法(简单迭代计数(iterbased ) 步进方法和基于 SER 的自适应步进方法 ),它们也分别在 DPTA 中实现。 采用50个基准电路作为测试电路数据集,其中17个“难以收敛”电路用于收敛比较。 此外,还比较了收敛性和仿真效率。

表1:DPTA三种步进策略的仿真效率对比



采用所提出的 RL 增强步进策略的 DPTA 优于基于简单迭代的步进方法的 DPTA(加速比:最大 257.56x,平均 17.90x)和基于 SER 的自适应步进方法的 DPTA(加速比:最大 257.43x,平均 17.58 x) NR 迭代次数。 一般来说,在一些收敛困难的电路中会出现较大的加速,传统的步进方法通常存在小前向步长和大量回退步长

表2:DPTA下三种步进策略的收敛性对比



有些电路采用“iterbased”和“SER-based”步进方法DPTA不收敛,但可以实PTA收敛,并且可以通过提出的RL增强步进策略获得DC解决方案。 结果表明,所提出的具有随机步进策略和在线自适应缩放的RL增强步进策略可以显着提高DPT(实际上几乎是 PTA)求解器的收敛性能。

结论:

在本文中,我们提出了一种RL增强的步进策略来智能地评估PTA收敛状态并自适应地调整时间步长。 具有随机动作输出和在线自适应缩放的Dual Actor-Critic智能体旨在增强模型的鲁棒性和收敛性。 与广泛使用的基于迭代和基于 SER 的步进方法相比,所提出的 RL增强步进策略实现了显着的效率加速和收敛增强。

作者简介:

金洲,早稻田大学博士、博士后、GCOE研究员,计算机系讲师,硕士生导师。主要从事芯片设计自动化EDA、并行稀疏线性系统求解器、基于新型非易失存储器的存算一体软硬件协同设计等。在 DACTODAESIPDPSASP-DACGLSVLSI 等重要国际会议和期刊上发表30 余篇高水平学术论文。联系方式:jinzhou@cup.edu.cn