当前位置: 主页 > 学术动态 >

移动边缘计算中基于深度强化学习的联合DNN划分和任务卸载方法

点击数:   更新日期: 2023-09-27

中文题目:移动边缘计算中基于深度强化学习的联合DNN划分和任务卸载方法

论文题目:Joint DNN partitioning and task offloading in mobile edge computing via deep reinforcement learning

录用期刊/会议:【Journal of Cloud Computing】 (JCR Q2)

原文DOI10.1186/s13677-023-00493-9

原文链接:https://journalofcloudcomputing.springeropen.com/articles/10.1 186/s13677-023-00493-9

录用/见刊时间:2023年8月3日

封面摘要:移动边缘计算中基于深度强化学习的联合DNN划分和任务卸载方法

作者列表

1) 张建兵 中国石油大学(北京)信息科学与工程学院 计算机科学与技术系 讲师

2) 马淑芳 中国石油大学(北京)信息科学与工程学院 计算机科学与技术系 21

3) 严泽枭 中国石油大学(北京)信息科学与工程学院 计算机科学与技术系 21

4) 黄霁崴 中国石油大学(北京)信息科学与工程学院 计算机科学与技术系 教授

摘要:

随着人工智能的日益普及,深度神经网络(DNNs)已成为开发和推进AI应用的重要工具。考虑到移动设备上有限的计算和能量资源,运行计算密集型的DNN任务在MDs上仍具有挑战性。为了应对这一挑战,移动边缘计算(MEC)通过DNN划分和任务卸载提供了一种可行的解决方案。然而,由于各类设备之间的通信条件是随时间变化的,DNN任务在各设备上的分层部署也需要同步变化。这是一个动态变化过程,加剧了DNN划分的复杂程度。本文深入研究了在动态MEC场景中,联合优化DNN划分和任务卸载的能量和延迟问题,其中每个MD和服务器都采用预先训练的DNN进行任务推理。利用DNN的特点,提出一种DNN任务的分层划分策略,将每个MD的任务划分为子任务,这些子任务可以在MD上处理,也可以卸载到服务器进行计算。然后,将能量和延迟之间的折中公式化为一个联合优化问题,并进一步将其建模为一个马尔可夫决策过程(MDP)。为了解决此问题,设计了一个基于深度强化学习(DRL)的DNN划分和任务卸载(DPTO)算法,使MDs能够做出最优的卸载决策。最后,实验结果表明,所提算法在处理延迟和能耗方面优于现有的非DRL和DRL算法,并可应用于不同类型的DNNs。

背景与动机:

作为支持现代人工智能应用的核心技术,深度神经网络(DNNs)已被广泛应用于计算机视觉,自然语言处理,图像识别,VR,AR等领域。然而,由于基于DNN的应用计算复杂度高,会产生高延迟和高能耗,因此它们难以直接在有限的计算和能量资源的移动设备(MD)上运行。传统的解决方法是借助具有强大计算能力的云数据中心进行密集计算。然而,这种基于云的方式需要通过长距离的广域网传输大量数据,会产生较高的传输时延和能量消耗,无法满足对延迟和能量敏感的DNN应用的需求。本文采用移动边缘计算(MEC)模式,利用DNN的特点,将MD上的全部或部分任务卸载到边缘服务器上,以支持实时的边缘AI应用。

设计与实现:

本文考虑了一个动态MEC场景,如图1所示。



图1 系统模型

(1)处理延迟模型

MD上执行DNN任务的计算延迟,表示如下:



其中,



MEC服务器上执行DNN任务的计算延迟,表示如下:



其中,



将MD的输出数据上传到MEC服务器的传输延迟为:



其中,



数据从MEC服务器到MD下载延迟为:



其中,



移动设备的总延迟可以被建模为:



其中,





(2)能量消耗模型

DNN任务在MD上的计算能耗,可以被建模为:



MD执行后的输出数据上传到MEC服务器所消耗的能量为:



MD的总能量消耗,表示如下:



其中,



(3)问题建模

本地移动设备的总成本由延迟、能量成本和惩罚项组成,并将其形式化为:



任务处理成本最小化问题可以表示为:



上述问题是一个计算复杂度很高的混合整数规划问题,采用传统优化方法的时间复杂度和空间复杂度太高。因此,本文使用MDP进行动态建模。

动作:



状态:



奖励:



本文使用深度强化学习算法(DRL)进行MDP优化求解,设计了DPTO算法,伪代码如图2所示。



图2 算法伪代码

具体算法流程图如图3所示。



图3 算法流程图

实验结果及分析:

(1)与非DRL算法的对比实验



图4 不同带宽下不同算法的比较 (a)平均处理延迟 (b)平均能量消耗



图5 不同DNN类型下不同算法的比较 (a)平均处理延迟 (b)平均能量消耗

图4和图5展示了DPTO算法在不同带宽和不同DNN类型下均表现最佳。

(2)与DRL算法的对比实验



图6 训练过程中不同DRL算法的奖励函数比较

图6展示了在500轮迭代情况下,不同DRL算法的奖励函数随训练程度的变化趋势,从实验结果中得到,我们提出的DPTO算法获得的奖励值最低,收敛速度最快。



图7 不同带宽下的系统成本

图7展示了DPTO算法在不同带宽下的系统成本均优于其他算法。



图8 不同DNN类型下不同DRL算法的比较 (a)平均处理延迟 (b)平均能量消耗

图8展示了DPTO算法在不同DNN类型下的平均处理延迟和平均能量消耗均优于其他算法。

作者简介:

张建兵,博士,讲师,计算机技术专硕导师。研究方向:地理信息系统、数字地球、虚拟仿真、人工智能等。承担国家重点研发项目子课题、国家863项目子课题、中石化勘探开发研究院课题,中科院空天信息创新研究院课题,承担企业委托课题等科研项目10多项。通过软著进行成果转化2项。