中文题目:基于强化学习的骨干辅助实时PD-NOMA网络中数据基站的部署策略
论文题目:Data Sinks Deployment for Backbone-Assisted Real-Time PD-NOMA Networks based on Reinforcement Learning
录用期刊/会议:The 21st IEEE International Conference on Ubiquitous Intelligence and Computing (CCF C)
作者列表:
1) 吕振杰 中国石油大学(北京)人工智能学院 计算机科学与技术专业 硕 22
2) 徐朝农 中国石油大学(北京)人工智能学院 计算机系教师
3) 魏嘉辰 中国石油大学(北京)人工智能学院 计算机科学与技术专业 硕 22
摘要:
实时性能是骨干网辅助功率域非正交多址接入无线网络(BA-PDNOMAWNs)在工业物联网应用中的关键指标之一。由于数据基站与无线传感器之间的地理位置关系对实时性能有极大影响,因此在无线传感器固定的场景下,合理设置数据基站的位置是一种实现高实时性能的有效方法。本文将骨干网辅助PD-NOMA无线网络中寻找最佳数据基站位置的问题建模为一个最小化上行传输时延的优化问题。为了找到一种低复杂度的算法,我们首先将该问题形式化为马尔可夫决策过程,并提出了一种基于经典多智能体深度确定性策略梯度的强化学习算法,其中奖励函数经过精心设计,以加速收敛。实验结果表明,相较于单个数据基站,多个数据基站在BA-PDNOMAWNs中可以将上行传输时延减少2.2倍。此外,与经典的模拟退火优化算法及其他部署算法(如CC和GP算法)相比,所提出的算法可以将上行传输时延减少2倍,从而实现更优的实时性能。
主要内容:
1、问题建模
为了更清晰地描述问题,我们给出了“可行解码序列”的定义,对于一个拥有m个数据基站的BA-PDNOMAWN网络,我们需要找到m个可行的位置 (X1,Y1),(X2,Y2),…,(Xm,Ym) 来最小化帧长度。因此,该问题可以表述如下。
其中Ne表示一个可解码用户序列。
2、算法设计
为了解决上面的问题,首先我们将问题转化为一个马尔可夫过程,并对其中的奖励策略进行了详细设计。我们同时给出了“序列干扰度”和“序列全局干扰增量”的定义。基于上述BA-PDNOMAWNs的原则以及“可行解码序列”的定义,首先顺序选择尚未被分配的所有可行UE。然后,计算该序列的全局干扰增量,选择全局干扰增量值最小的UE,并将其分配到当前时槽的下一阶段。该过程将持续进行,直到没有UE可以分配到该时槽为止,从而完成该时槽的UE分配。此过程将在后续的时槽中重复进行,直到所有UE都完成分配。从而可以计算出奖励值。
然后,我们提出了一种基于MADDPG的骨干网辅助多数据基站部署(BAMDSP)算法来解决这个问题。
实验结果及分析:
我们还将所提出算法与模拟退火(SA)算法及现有的BA-PDNOMAWNs多数据基站部署算法如CC、GP进行比较。在仅有一个数据基站的非骨干无线网络中,我们的方法将上行帧长度分别减少了2.2倍、1.22倍和1.33倍。在BA-PDNOMAWNs中,我们提出的方法甚至可以将接入时延减少2倍。
小结:
本文探讨了灵活部署数据基站对BA-PDNOMAWNs中接入时延性能的影响。本文提出的BAMDSP算法为提升实时性能提供了有效的解决方案。随着NOMA技术的广泛应用以及骨干网连接数据基站所带来的优势,BA-PDNOMAWNs预计将在不久的将来成为一个重要的研究热点。
作者简介:
徐朝农,中国石油大学(北京)人工智能学院教师,主要研究领域为边缘智能、嵌入式系统、无线网络。