当前位置：主页 > 学术动态 >

OSSP-PTA: 一种用于 PTA 仿真的强化学习在线随机步进策略

点击数: 更新日期: 2023-06-27

原文信息：

题目：OSSP-PTA: An Online Stochastic Stepping Policy for PTA on Reinforcement Learning

发表期刊：IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (TCAD, CCF-A类期刊)

原文DOI：https://doi.org/10.1109/TCAD.2023.3251731

作者列表：

1) 牛丹东南大学自动化学院自动化系

2) 董毅超东南大学自动化学院自动化系

3) 金洲中国石油大学（北京）信息科学与工程学院计算机科学与技术系

4) 张川东南大学信息科学与工程学院通信与信息系统系

5) 李奇东南大学自动化学院自动化系

6) 孙长银安徽大学党委常委、副校长

背景与动机：

在电路仿真中，鲁棒地计算大规模非线性电路的直流工作点仍然是一项基础且困难的任务。伪瞬态分析（Pseudo-Transient Analysis，PTA）法由于没有不连续问题以及易于实现，被认为是商业仿真器中最实用和最主要的直流工作点求解器。PTA的收敛性和仿真效率通常与其使用的步进策略具有很大的关系。然而，步进策略的选择是一个非常困难的问题，其仍然是PTA应用中的瓶颈。PTA迭代过程可以近似地看作是一个马尔科夫决策过程（MDP），强化学习（Reinforcement Learning，RL）对解决该问题有很大的好处。因此，本文提出了一种在线学习的PTA随机步进策略（OSSP-PTA），使用价值分离和基于动量缩放的双自主强化学习（RL）模型对步长做自适应调整，从而显著提高PTA仿真效率和收敛情况，该方法无需人工干预和专家经验，仅通过模型的自我搜索进行训练。

设计与实现：

具体而言，我们将PTA迭代解的跟踪过程视为MDP问题，并提出了与电路仿真环境交互的在线随机步进策略。我们构建了双RL智能体，可以自主地调整PTA迭代的前进步长和后退步长，目标是在实现PTA收敛的同时最小化NR迭代总次数。所提出的基于RL的步进问题由以下四个关键元素组成：

（1）状态：来自EDA工具的PTA迭代状态参数集。单个状态st由一个时间步tn上的状态参数集组成，本文中st包括NR迭代次数（NR iters）、残差（Res）、解的相对变化率（RC rate）和收敛状态（Conv_NR/PTA）。

（2）动作：双智能体可以用来计算伪电路的PTA迭代解的动作集。一个动作at可以为瞬态分析生成合适的下一个时间步长hn+1。

（3）状态转换：给定状态st和动作at，下一个状态为同一伪电路下一个时间步长hn+1的迭代状态参数。

（4）奖励：如果动作产生的时间步长使PTA迭代趋于收敛，奖励就会增加。

在RL中，我们的两个智能体通过在多个离散时间步上与伪电路的瞬态迭代交互来学习。在每个时间步长tn处，智能体接收到一个状态st后，根据其策略π输出一个规范化动作at（（-1,1）范围内）。作为回报，智能体接收到一个奖励信号rt，并过渡到下一个状态st+1。最优策略是使预期收益或价值最大化的策略。

图1：所提出的具有随机步进策略的双软Actor-Critic智能体

OSSP-PTA的创新点如下：

（1）通过应用所提出的在线随机步进策略（OSSP）使用PTA方法进行直流分析，我们在未知的测试电路上实现了显著的效率加速和收敛增强，而无需任何额外的训练，并且仅需要进行一次PTA迭代过程。它智能地编码了PTA迭代状态，并在线自适应调整向前和向后的时间步长，而无需监督样本。

（2）我们引入了双软Actor-Critic模型，并提出了一种基于最大熵的在线随机步进策略（OSSP）。与先前PTA中的确定性步进策略相比，OSSP具有更强的步进空间探索能力，并有助于抑制震荡以获得更好的收敛性。

（3）提出了连续价值分离架构，其中包含三个流，用于对状态价值函数和优势函数进行独立估计。它可以在存在冗余或类似动作的情况下实现更好的策略评估，从而加速仿真。

（4）提出了一种自适应的和基于动量的步长缩放策略，同时配备在线步进策略更新，以处理离线训练和在线预测之间的电路差异。引入偏差的一阶和二阶动量估计，通过编码未知测试电路的先前步长来获得在线动量步长缩放。它突破了增益限制，进一步提高了仿真效率。

性能评估：

（1）仿真效率对比

我们在DPTA和CEPTA上实现了我们的OSSP方法，并将其和iter-based和SER-based两种步进策略进行了对比，结果如表1和表2所示，可以看出OSSP具有更好的仿真效率。

表1：DPTA下三种步进方法的仿真效率比较

表2：CEPTA下三种步进方法的仿真效率比较

（2）PTA收敛性对比

此外，我们对比了一些“困难”电路在三种步进方法（分别使用DPTA和CEPTA测试）下的收敛性，测试结果见表3和表4，其中，“-”表示不收敛。可以看出，对于其他两种步进方法不能收敛的部分电路，OSSP-PTA可以成功收敛。

表3：DPTA下三种步进方法的收敛性比较

表4：CEPTA下三种步进方法的收敛性比较

此外，图2详细展示了三个电路在传统步进策略下出现的不收敛情形，而我们所提出的OSSP-PTA可以使得这些“困难”电路成功收敛。

（a）（b）

（c）

图2：（a）基于iter和OSSP的电路jge仿真过程；（b）基于SER和OSSP的电路add20仿真过程；（c）基于SER和OSSP的电路optrans仿真过程

（3）不同伪电容性能比较

表5给出了三个步进方法下，两个具有不同伪电容的“困难”电路的测试结果。与其他两种步进方法相比，即使伪电容值变化范围较大，所提出的OSSP方法也具有较好的收敛性，证明了该步进策略的鲁棒性。

表5：不同伪电容的性能比较

（4）消融实验

最后，我们分别进行了OSSP、价值分离和在线动量缩放的消融实验，以验证它们对提高PTA收敛性能的有效性，结果如表6、7、8所示。

表6：有/无价值分离的OSSP性能对比表7：随机步进策略和的固定步长策略的性能对比

表8：有/无价值分离的OSSP性能对比

结论：

在本文中，我们提出了一种在线学习的PTA随机步进策略（OSSP-PTA），它采用双自主RL智能体来在线自适应调整未见过的测试电路的前进和后退步长，以加速PTA的收敛速度。为了实现更好的策略评估，我们设计了一个连续的价值分离架构，使用三个流来分别生成状态价值函数和优势函数的估计。为了处理离线训练和在线预测之间的电路差异，我们提出了一种基于一阶和二阶动量估计的在线动量步长缩放策略，以与在线步进策略更新一起使用，进一步增强了仿真效率。通过在一些基准电路上评估OSSP，我们所提出的方法能够通过强大的步进空间探索能力进一步在线调整步长，其在PTA收敛性和仿真效率方面有着显著的提升（最多减少94.86倍的PTA步骤和47.00倍的NR迭代）。

作者简介：

金洲，早稻田大学博士、博士后、GCOE研究员，计算机系讲师，硕士生导师。主要从事芯片设计自动化EDA、并行稀疏线性系统求解器、基于新型非易失存储器的存算一体软硬件协同设计等。在DAC、TCAD、TCAS-II、IPDPS、TODAES、ASP-DAC等重要国际会议和期刊上发表30 余篇高水平学术论文。联系方式：jinzhou@cup.edu.cn。