当前位置：主页 > 学术动态 >

强化学习加速的非线性直流电路仿真

点击数: 更新日期: 2022-10-25

中文题目：强化学习加速的非线性电路直流仿真：

原文题目：Accelerating Nonlinear DC Circuit Simulation with Reinforcement Learning

发表会议：59th Design Automation Conference（CCF A类）

作者列表：

1）金洲中国石油大学(北京) 信息科学与工程学院

2）裴浩杰中国石油大学(北京) 信息科学与工程学院研20级

3）董毅超东南大学自动化学院研20级

4）靳翔北京航空航天大学集成电路科学与工程学院

5）吴枭北京华大九天科技股份有限公司

6）邢炜北京航空航天大学集成电路科学与工程学院

7）牛丹东南大学自动化学院

背景与动机:

直流分析是非线性电子电路仿真的基础。在各种直流分析的延拓算法中，伪瞬态分析 (PTA) 方法已经取得了巨大成功。然而，在没有仔细的初始参数调参和适当的步进策略的情况下，PTA 往往是计算密集型的。因此，在本文中，我们利用如图1所示的机器学习的技术同时解决上述挑战。我们首先利用主动学习来提供良好的初始求解器环境，其次实现了基于双延迟深度确定性策略梯度（TD3）的强化学习(RL)步进策略以加速动态仿真。强化学习通过设计双智能体结构、引入优先级采样和协同学习来增强算法的鲁棒性和收敛性。

图1：机器学习增强PTA的总体流程

算法设计与实现:

（1）初始参数预测

考虑一个具有初始参数的PTA求解器（表示插入的伪电容器、伪电感器和时间常数的值）对网表文件进行仿真并且达到稳态。我们关注对于的NR迭代次数的减少，而实际需要关注的NR迭代次数，这里的
表示了和未完全捕获的模型不充分性和随机性。因此，我们的目标是寻找一个函数使得NR迭代次数最少，表示对于任意给定的网表的最优PTA求解器参数以及表示的可行域。值得注意的是，这不是一个优化问题，因为我们不允许对于未知的电路来执行。相反，我们的目标是找到映射, 即一个如图2所示的直接的监督学习问题。

图2：智能初始化以获得更好的方程公式

（2）强化学习的步进策略

在这里，我们介绍了所提出的基于强化学习的快速步进策略（RL-S）。在强化学习基础上设计双智能体结构、引入优先级采样和协同学习来增强算法的鲁棒性和收敛性。

1、前进/回退的双智能体结构

在实际仿真过程中，大多数训练数据是从具有较大时间步长的收敛阶段收集的。然而，在少数情况下，需要小步长来确保NR收敛，例如具有高环路增益的电路，这毫无疑问地增加了智能体学习的难度。因此我们设置了如图3所示两个智能体来分别处理这两种情况。

图3：双智能体的步进结构

2、基于公共样本池的协同学习

在线学习的一个重要指标是模型在每种环境下收敛到最优策略的学习速度。显然，在线学习的早期，很少有可供学习的样本将影响模型的收敛速度。此外，如果延长在线学习的时间跨度，该过程所消耗的时间也不容忽视。为了解决这个问题，我们提出了如图4所示的基于公共样本池的协同学习来实现更高的样本利用率，从而加快了智能体在线学习阶段的收敛速度，降低仿真的时间成本。

图4：协同学习的设计和优先级采样的引入

3、优先级采样

由TD3算法中Critic网络和Actor网络的梯度更新可知，较大的TD error（Temporal Difference error）对Critic网络的更新贡献更大。因此，我们可以使用优先采样的方法对网络收敛有较大贡献的样本进行学习。值得注意的是，这种方法不会完全剔除那些可能对网络学习有益但更新权重较小的样本，从而延续了样本池的丰富性。

性能评估:

（1）初始参数预测

我们展示了在CEPTA上初始参数预测模型的加速比。如表1所示，我们可以观察到2-3倍的NR迭代加速。更重要的是，初始参数预测模型可以使不收敛的情况转为收敛，这在我们的实际仿真中是非常期望的出现的情况，它可以为后续的RL-S过程提供可行的工作空间。

表1：初始参数预测的仿真效率

（2）强化学习的步进策略

为了评估我们的RL-S，我们将其与自适应步进策略（广泛使用的 SOTA PTA 步进）和简单步进策略进行了对比，结果如图 5 所示。很明显，RL-S在CEPTA中的NR迭代次数相较于自适应步进策略和简单步进策略的加速比最高达3.77倍和2.71倍。对于PTA的步数也观察到类似的加速，这表明我们的RL-S可以实现NR循环内部和外部的加速，并且不会导致退化。

图5：RL-S相对于CEPTA的传统步进策略的加速

我们的RL-S兼容各种PTA求解器。因此，我们也在DPTA中对其进行了评估，并将结果显示在表2中。我们观察到RL-S对DPTA的性能提升比对CEPTA的性能提升更为显著。特别是，RL-DPTA的PTA迭代次数比自适应方法最大可以减少99.79%，平均可减少60.57%，从而显示了我们的RL-S出色的效率。

表2：RL-S相对于DPTA的自适应步进策略的加速

结论:

在本文中，我们提出了一种快速直流分析方法。主动学习和强化学用于在两阶段加速框架中加速当前最有前景的直流分析方法—伪瞬态分析（PTA）。提出的 RL-S 与自适应和传统的简单迭代时间步长控制方法进行了比较，证明了对DPTA的NR迭代次数最高加速可达234.23倍。

作者简介:

金洲，早稻田大学博士、博士后、GCOE研究员，计算机系讲师，硕士生导师。主要从事芯片设计自动化EDA、并行稀疏线性系统求解器、基于新型非易失存储器的存算一体软硬件协同设计等。在 DAC、TODAES、IPDPS、ASP-DAC、GLSVLSI 等重要国际会议和期刊上发表30 余篇高水平学术论文。联系方式：jinzhou@cup.edu.cn。