基于联邦深度强化学习的无人机辅助车联网联合数据缓存和计算卸载方法-科研动态-中国石油大学（北京）人工智能学院

您所在的位置：首页 - 科学研究 - 科研动态

科研动态

基于联邦深度强化学习的无人机辅助车联网联合数据缓存和计算卸载方法

日期：2024-10-10 | 访问量：

中文题目：基于联邦深度强化学习的无人机辅助车联网联合数据缓存和计算卸载方法

论文题目：Joint Data Caching and Computation Offloading in UAV-assisted Internet of Vehicles via Federated Deep Reinforcement Learning

录用期刊/会议：IEEE Transactions on Vehicular Technology (中科院大类二区、TOP)

原文DOI：10.1109/TVT.2024.3429507

录用/见刊时间：2024年7月18日

作者列表：

1）黄霁崴中国石油大学（北京）人工智能学院教授

2）张曼中国石油大学（北京）人工智能学院计算机科学与技术专业硕22

3）万江源中国石油大学（北京）人工智能学院计算机科学与技术专业硕20

4）陈莹北京信息科技大学计算机学院教授

5）张宁 University of Windsor Professor

摘要:

随着移动边缘计算（MEC）技术在车辆互联网（IoV）中的日益普及，部署在宏基站（MBSes）等静态位置的边缘服务器可以为其覆盖区域内的车辆提供计算和缓存服务，有效地减少了任务处理延迟。然而，由于MBSes周围的建筑密集和特定区域（如热点请求，交通交叉口），IoV的服务质量（QoS）保证是一项具有挑战性的任务。为了解决这些挑战，无人机（UAV）可以通过利用其移动灵活性、低价格和视线（LoS）通信链路的优势，集成到IoV的MEC中。在本文中，我们建立了一个联合无人机辅助的IoV场景，其中无人机和MBSes都可以为智能车辆提供计算和数据缓存服务。然后，我们提出了一个动态数据缓存和计算卸载的联合优化问题，旨在最小化平均任务处理延迟和最大化无人机缓存命中率。通过应用深度强化学习（DRL）技术，我们设计了一种智能数据缓存和计算卸载（IDCCO）算法来处理大规模和连续的状态和动作空间。此外，为了在保护DRL模型训练的同时保护原始用户数据的收敛速度，我们提出了一种基于联邦学习（FL）的分布式训练机制，其中DRL模型在无人机上进行局部训练，在MBS上进行全局参数聚合。最后，进行了大量的实验，实验结果表明，该方法在缩短训练时间、减少任务处理延迟、最大化缓存命中率方面优于几种比较算法。

背景与动机:

对于数据密集型的任务，现有的数据缓存算法可以分为传统方法和基于学习的方法。然而，由于IoV中的各种属性都是动态的，传统的策略难以适应动态环境。同时，大多数采用集中学习的算法会导致以下问题。随着用户数量的增加，数据传输和模型训练将消耗过多的通信和计算资源。此外，训练数据的增加也使得集中式学习模型的训练越来越困难。最后，用户数据的传输引发了人们对潜在的个人隐私泄露的担忧。因此，在保护IoV用户隐私的同时，设计一种在动态场景中获得高效、低成本的最优全局数据缓存策略至关重要。

主要内容:

图1 无人机辅助IoV网络架构图

如图1所示，本文考虑了一个由MBS、无人机和车辆组成的车联网边缘计算场景。在道路上的车辆产生异构的数据密集型任务，无人机和MBS都可以为车辆提供数据缓存和计算卸载服务。针对IoV的动态性，本文考虑了ES可用的时变计算资源、车辆移动性和区域流行的数据动态。我们提出了一个数据缓存和计算卸载的联合优化问题，目的是最小化任务平均处理延迟和最大化无人机缓存命中率。优化问题表示为：

为了解决大规模的动态场景问题，我们设计了一种基于DRL的算法，可以有效地解决由此引起的马尔可夫决策过程（MDP）空间爆炸问题。考虑到用户隐私性的重要性和加快模型训练收敛性的必要性，本文引入一种基于联邦学习（FL）的分布式训练机制，如图2所示。

图2 基于FL的模型训练过程

DRL代理可以以分布式方式进行训练，每个代理都可以在本地维护其数据，而无需向互联网上的MBS透露任何用户私有信息。具体的算法伪代码如下：

实验结果及分析:

实验结果表明，与几种基线算法相比，本文提出的Fed-IDCCO算法能够有效地降低动态网络场景下的平均任务处理延迟，最大化无人机缓存命中率，同时与集中式算法相比，加快了DRL模型的收敛速度。

图3 Fed-IDCCO和集中式IDCCO之间的损失函数

图4 不同的缓存容量下的缓存命中率和时延

图5 不同的内容数下的缓存命中率和时延

图6 不同无人机和MBS计算资源下的平均时延

结论:

在本文中，我们考虑了一个UAV-MBS辅助的IoV移动边缘计算场景。我们研究了联合数据缓存和计算卸载的问题以最小化任务平均处理延迟和最大化无人机缓存命中率。我们设计了一种基于DRL和FL的分布式智能算法，从而获得了最优的数据缓存和计算卸载策略。训练过程可以并行地加速，而不需要向核心网络传输任何对用户敏感的数据。最后，我们基于真实数据集进行了大量的实验，实验结果验证了该方法对几种基线算法的效率和优越性。

作者简介:

黄霁崴，教授，博士生导师，中国石油大学（北京）人工智能学院副院长，石油数据挖掘北京市重点实验室主任。入选北京市优秀人才、北京市科技新星、北京市国家治理青年人才、昌聚工程青年人才、中国石油大学（北京）优秀青年学者。本科和博士毕业于清华大学计算机科学与技术系，美国佐治亚理工学院联合培养博士生。研究方向包括：物联网、服务计算、边缘智能等。已主持国家自然科学基金、国家重点研发计划、北京市自然科学基金等科研项目18项；以第一/通讯作者在国内外著名期刊和会议发表学术论文70余篇，其中1篇获得中国科协优秀论文奖，2篇入选ESI热点论文，5篇入选ESI高被引论文；出版学术专著1部；获得国家发明专利6项、软件著作权4项；获得中国计算机学会服务计算“青年才俊奖”；获得中国通信学会科学技术一等奖1项、中国产学研合作创新成果一等奖1项、广东省计算机学会科学技术二等奖1项。担任中国计算机学会(CCF)服务计算专委会委员，CCF和IEEE高级会员，电子学报、Chinese Journal of Electronics、Scientific Programming等期刊编委。联系方式：huangjw@cup.edu.cn