当前位置：主页 > 学术动态 >

基于深度强化学习的车联网云边协同场景下的联合计算卸载和资源分配方法

点击数: 更新日期: 2023-03-27

中文题目：基于深度强化学习的车联网云边协同场景下的联合计算卸载和资源分配方法

论文题目：Joint Computation Offloading and Resource Allocation for Edge-Cloud Collaboration in Internet of Vehicles via Deep Reinforcement Learning

录用期刊/会议：IEEE Systems Journal (JCR Q2)

原文DOI：https://doi.org/10.1109/JSYST.2023.3249217

录用时间：2023年2月19日

封面摘要：该研究成果由黄霁崴老师团队完成，已被IEEE Systems Journal收录。

作者列表：

1）黄霁崴中国石油大学（北京）信息科学与工程学院计算机科学与技术系教授

2）万江源中国石油大学（北京）信息科学与工程学院计算机科学与技术专业硕20

3）吕博枫中国石油大学（北京）信息科学与工程学院计算机科学与技术专业硕20

4）陈莹北京信息科技大学计算机学院副教授

5）叶强加拿大纽芬兰纪念大学计算机科学系助理教授

摘要:

移动边缘计算和云计算被认为是提高车联网任务处理效率的关键技术。本文考虑了一个动态交通流量和动态网络的车联网场景，其中移动边缘计算和云计算被用来协同处理车联网中延迟敏感和计算密集的任务。本文研究了一个计算卸载和资源分配的联合优化问题，目标是在任务处理延迟和传输速率约束下最小化处理任务的系统成本。为了应对动态环境带来的挑战，本文使用马尔可夫决策过程模型来建模动态优化问题，并应用深度强化学习技术来处理高维和连续的状态和动作空间，然后，本文设计了一种联合计算卸载和资源分配（CORA）算法，该算法能够通过自适应动态网络环境来有效地学习最优策略。本文的仿真实验比较了CORA算法与传统卸载算法和深度强化学习算法。实验结果表明，CORA算法在处理延迟和处理成本方面具有良好的收敛性的同时降低了任务处理成本。

背景与动机:

随着车联网技术的快速发展应运而生，各种车载应用被用来提高人车交互的便利性，但应用大多数是资源密集型，但是目前车辆的计算能力和存储容量均有限。因此，具有高性能计算能力和大容量存储的云服务器是减少车辆负担的有效方法，但云服务器与车辆的距离一般较远，大量的数据传输会导致较高的传输延迟和不稳定的通信连接。为了弥补云计算的不足，移动边缘计算技术被引入与云计算联合为车辆提供服务。如何将车辆、边缘服务器、云服务器的计算和存储资源有序协调并合理地利用是一个挑战。

主要内容:

本文在车联网场景中构建了一个三层的车辆-边缘-云协作系统，如图1所示。

图1 车联网云边协同场景图

（1）车辆移动模型

（2）任务模型

任务生成过程服从伯努利分布，任务到达率为：

单个路侧单元覆盖范围内生成的任务计算数据量为：

（3）计算模型

本地计算：处理计算负载的本地计算平均延迟为：

RSU边缘计算：边缘服务器处理，则平均计算延迟为：

（4）通信模型

车辆到路侧单元：车辆集合与路侧单元的平均传输延迟为：

路侧单元到宏基站：路侧单元与MBS的平均传输延迟为：

计算负载的总处理延迟为：

（5）优化模型

处理任务的总成本包括计算成本和通信成本。

（1）计算成本

（2）通信成本

任务处理成本最小化问题可以表示为：

上述问题是一个计算复杂度很高的混合整数规划问题，基于传统优化理论的解决方案的时间复杂度和空间复杂度太高。因此，本文使用马尔科夫决策过程（MDP）进行动态建模。

（1）状态：

（3.19）

（2）动作：

（3）奖励：

本文使用深度强化学习算法（DRL）进行MDP优化求解，设计了CORA算法，伪代码如图2所示。

图2 算法伪代码

具体算法流程图如图3所示。

图3 算法流程图

实验结果及分析:

（1）与非DRL算法的对比实验

图4 不同车辆数量下的系统成本图5 不同车辆数量下的处理延迟

图4和图5表示CORA算法在不同车辆数的情况下成本和延迟之间实现很好的权衡。

图6 不同带宽资源下的处理时延图7 不同计算资源下的处理延迟

图6和图7表示CORA算法在不同带宽资源和边缘服务器计算资源情况下均表现最佳。

图8 不同车辆数的任务执行失败率

图8表示CORA算法可以在不同车辆数的情况下均有最低的任务执行失败率。

（2）与DRL算法的对比实验

图9 不同车辆数下的系统成本

图10 不同车辆数下的处理延迟

图9和图10表示CORA算法在不同的车辆数下均表现最佳。

图11 不同算法的收敛过程

图12 不同离散化程度下的系统成本

图11和图12表示CORA算法具有良好的算法收敛性能.

图13 不同车辆数的收敛所需训练轮数

图13表示CORA算法在任何车辆数的情况下达到收敛所需的训练轮数均为最少的。

作者简介:

黄霁崴，博士，教授，博士生导师，石油数据挖掘北京市重点实验室主任，中国石油大学（北京）计算机科学与技术系主任，中国石油大学（北京）研究生教育督导组专家，信息科学与工程学院学术委员会委员。2015年北京市优秀人才培养资助入选者，2018年中国石油大学（北京）优秀青年学者，2020年北京市科技新星，2022年度北京市国家治理青年人才。分别在2009年和2014年于清华大学计算机科学与技术系获得工学学士和工学博士学位，2012-2013年国家公派赴美国佐治亚理工学院联合培养。研究方向包括：物联网、服务计算、边缘智能、深度强化学习、智能优化算法等。担任中国计算机学会(CCF)服务计算专委会委员、秘书，CCF高级会员，IEEE、ACM会员。已主持国家自然科学基金、国家重点研发计划、北京市自然科学基金等科研项目18项；在国内外著名期刊和会议发表SCI/EI检索的学术论文60余篇，其中1篇获得Chinese Journal of Electronics优秀论文奖，2篇入选ESI热点论文；出版学术专著1部；获得国家发明专利6项、软件著作权4项；获得中国通信学会科学技术一等奖1项、中国产学研合作创新成果一等奖1项。担任电子学报、Chinese Journal of Electronics、Scientific Programming等期刊编委。

联系方式：huangjw@cup.edu.cn。