点击数: 更新日期: 2024-07-24
中文题目:一种面向联邦学习的分层激励机制
论文题目:A Hierarchical Incentive Mechanism for Federated Learning
录用期刊/会议: IEEE Transactions on Mobile Computing (CCF A)
原文DOI: 10.1109/TMC.2024.3423399
录用/见刊时间: 2024/6/18
作者列表:
1) 黄霁崴 中国石油大学(北京) 人工智能学院 计算机科学与技术系 教授
2) 马博闻 中国石油大学(北京) 人工智能学院 计算机科学与技术专业 硕21
3) 陈 莹 北京信息科技大学 计算机学院 教授
4) 吴 远 澳门大学 智慧城市物联网国家重点实验室 副教授
5) Xuemin (Sherman) Shen University of Waterloo Department of Electrical and Computer Engineering Professor
摘要:
随着移动计算的爆炸性发展,联邦学习被认为是一种有前途的分布式训练框架,可以解决传统云端集中式训练的不足。在联邦学习中,本地模型所有者各自训练本地模型,然后将训练后的本地模型上传给任务发布者进行聚合,以获得全局模型。当本地模型所有者提供的数据不满足模型训练要求时,他们可以招聘工人来收集数据。在本文中,我们考虑到任务发布者、本地模型所有者和工人之间的互动,提出了一个三层层次的博弈框架。然而,这其中存在两个挑战。首先,工人与本地模型所有者之间的信息不对称可能导致工人隐瞒其真实类型。其次,任务发布者与本地模型所有者之间的激励不匹配可能导致本地模型所有者缺乏参与联邦学习的意愿。因此,我们将层次框架分解为两层以解决这些挑战。对于底层,我们利用契约理论确保工人如实报告其类型,并在此基础上简化契约的可行条件并设计最优合同。对于上层,我们采用Stackelberg博弈来建模任务发布者与本地模型所有者之间的互动,并推导出纳什均衡和Stackelberg均衡解。此外,我们开发了一个基于迭代的层次效用最大化算法(HUMA)来解决上层和下层博弈之间的耦合问题。广泛的数值实验结果验证了HUMA的有效性,比较结果说明了HUMA的性能提升。
背景与动机:
尽管联邦学习在协作学习和用户隐私保护方面显示出了巨大的优势,但如果边缘节点没有足够的训练资源,联邦学习的性能将会下降。因此,激励本地模型所有者参与联邦学习并确保他们拥有足够的数据至关重要。许多技术已被应用于设计激励机制,包括契约理论、Stackelberg博弈和拍卖等。然而,现有研究通常只关注任务发布者与本地模型所有者之间或本地模型所有者与工人之间的激励机制设计,未能充分考虑当本地模型所有者提供的数据不足以满足模型训练需求时的特征,以及工人在数据收集过程中的边际效用递减规律。为此,本文提出了一个基于分层博弈的三层框架,旨在分析任务发布者、本地模型所有者和工人之间的相互作用,设计有效的激励机制以激励工人收集数据和本地模型所有者参与联邦学习,并解决激励不匹配和信息不对称问题。
主要内容:
如图1所示,我们考虑了一个分层联邦学习框架,包括一个中心节点、多个边缘节点和多个数据拥有者。中心节点负责发布联邦学习任务和总奖励以吸引感兴趣的边缘节点加入并获得奖励。边缘节点根据任务的要求,选择合适的数据样本并参与到联邦学习的训练当中。如果边缘节点缺少训练数据,它们可以发布数据收集任务,吸引数据拥有者提供数据并给予奖励。整体框架分为两层,旨在保护参与者的数据隐私并发挥联邦学习的优势。
图1 系统模型
中心节点的目标是最大化其收益,同时激励边缘节点参与联邦学习任务,通过提供总奖励来激励边缘节点共享数据和计算资源。中心节点的效用函数反映了中心节点通过联邦学习获得的净效益,即模型准确度带来的收益减去支付给边缘节点的总奖励,具体如下所示:
在进行联邦学习任务时,边缘节点利用其本地数据样本进行模型训练以获得收益,但此过程也涉及一定的训练成本,这包括计算成本、通信成本以及数据采集费用,边缘节点n的效用函数可以定义为:
从经济学的角度出发,使用基于边际效用递减法则的疲劳损失函数来描述数据拥有者在收集数据时的负面效益,疲劳损失函数是非递减且凸的,这意味着其边际损失随着的x增加而增加。具体来说,该函数的一阶导数和二阶导数均为非负的,表明了每增加一个数据单位,损失的增加速度是加快的。因此,属于边缘节点n的第m类数据拥有者的效用函数表示为:
整个系统内的效用最大化问题可以被表述为寻求三个参与者之间的最优策略组合,以实现各自利益的最大化。这可以形式化为以下优化问题:
在上层博弈中,采用两阶段的Stackelberg博弈来模拟中心节点与边缘节点之间的动态互动。在博弈的第一阶段,中心节点公布总奖励。接着,在第二阶段,边缘节点根据公布的奖励决定自己的参与程度,以最大化个体效用,其中边缘节点策略体现为贡献的数据样本数量。鉴于每个边缘节点都追求自身效用的最大化,且行为自私且理性,边缘节点之间的互动可以转化为一个非合作博弈,其中的纳什均衡反映了各方的最优策略。在下层博弈中,由于边缘节点不知道数据拥有者的私有属性,数据拥有者会隐瞒它们的类型以获取更多的奖励。因此,可以应用契约理论来解决边缘节点和数据拥有者之间的信息不对称问题。在这一部分,本文提出了契约理论的可行条件,优化了其可行条件,并最终给出了最优契约的解析解。上层和下层的激励机制设计问题已经被分别解决。然而,由于上下层的耦合,不能直接进行求解,我们提出了基于分层的效用最大化算法来解决上述问题。
实验结果及分析:
我们设计了大量模拟实验,以评估分层激励机制框架的有效性和算法的最优性。图2显示了本地模型拥有者在选择任务发布者设计的不同契约条目时的效用。
图2 本地模型拥有者的效用
图3显示了上层博弈本地模型拥有者和任务发布者在迭代过程中效用和策略的变化情况。
图3 上层博弈中迭代次数变化对性能的影响。(a) 本地模型拥有者的策略。(b) 任务发布者的效用和策略。(c) 本地模型拥有者的效用。
图4展示了三层博弈框架中工人、本地模型拥有者和任务发布者在迭代过程中效用和策略的变化情况。
图4 三层博弈框架中迭代次数变化对性能的影响。(a) 工人的实际疲劳水平。(b) 本地模型拥有者的策略。(c) 任务发布者的效用和策略。
图5展示了在不同定价方案下,不同种类工人的效用、奖励以及数据收集的定价。
图5 在不同定价方案下,工人的属性变化 (a) 工人的效用。(b) 工人的奖励。(c) 工人数据收集的单价。
结论:
在本文中,我们提出了一种用于联邦学习的分层博弈框架,包括任务发布者、多个本地模型所有者和多种类型的工人。由于框架中的激励不匹配问题,作者将框架分解为两个子博弈。在上层博弈中,采用基于Stackelberg博弈的激励机制来激励本地模型所有者增加参与水平。在下层博弈中,应用契约理论解决本地模型所有者和工人之间的信息不对称问题。随后,开发了统一算法HUMA来解决层次游戏框架的效用最大化问题。在该框架中,本文捕获了当本地模型所有者提供的数据不满足模型训练要求时,任务发布者、本地模型所有者和工人之间的互动,并相应地设计了激励机制以激励他们加入联邦学习。最后,通过数值实验展示了所提出方案的有效性和优势。未来的工作中,我们将进一步考虑任务的动态到达和环境(如时变信道),研究适应性的层次激励机制框架。此外,还将考虑更复杂的隐私问题,并研究不同类型的工人在层次激励机制框架中与不同质量水平的训练样本相关联的问题。
作者简介:
黄霁崴,教授,博士生导师,中国石油大学(北京)人工智能学院副院长,石油数据挖掘北京市重点实验室主任。入选北京市优秀人才、北京市科技新星、北京市国家治理青年人才、昌聚工程青年人才、中国石油大学(北京)优秀青年学者。本科和博士毕业于清华大学计算机科学与技术系,美国佐治亚理工学院联合培养博士生。研究方向包括:物联网、服务计算、边缘智能等。已主持国家自然科学基金、国家重点研发计划、北京市自然科学基金等科研项目18项;以第一/通讯作者在国内外著名期刊和会议发表学术论文60余篇,其中1篇获得中国科协优秀论文奖,2篇入选ESI热点论文,4篇入选ESI高被引论文;出版学术专著1部;获得国家发明专利6项、软件著作权4项;获得中国通信学会科学技术一等奖1项、中国产学研合作创新成果一等奖1项、广东省计算机学会科学技术二等奖1项。担任中国计算机学会(CCF)服务计算专委会委员,CCF和IEEE高级会员,电子学报、Chinese Journal of Electronics、Scientific Programming等期刊编委。