FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能

摘要

  联邦学习(Federated Learning)旨在通过让客户端在不分享其私人数据,保护数据隐私的前提下协作建立机器学习模型。

  联邦学习(Federated Learning)旨在通过让客户端在不分享其私人数据,保护数据隐私的前提下协作建立机器学习模型。最近的一些研究证明了在联邦学习过程中交换的信息会受到基于梯度的隐私攻击,因此,各种隐私保护方法已被采用来阻止此类攻击,保护数据隐私。然而,这些防御性方法要么引入数级更多的计算和通信开销(例如,同态加密),要么在预测准确性方面导致模型性能大幅下降(例如,使用差分隐私)。微众银行 AI 团队和中山大学合作发表的论文《FedCG:利用条件生成对抗网络在联邦学习中保护隐私并保持模型性能》提出了"FedCG",将条件生成对抗网络与分割学习相结合,实现对数据的有效隐私保护,同时保持有竞争力的模型性能。该论文已被国际人工智能顶级学术会议 IJCAI 2022 主会收录。

  论文信息

  作者:Yuezhou Wu,Yan Kang,Jiahuan Luo, Yuanqin He,Lixin Fan, Rong Pan, Qiang Yang

  标题:FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning

  FedCG 将每个客户端的本地网络分解为私有特征提取器(extractor)和公共分类器(classifier),并将特征提取器保留在本地以保护隐私。每个客户端用一个生成器(generator)来拟合特征提取器的输出表征。FedCG 的创新之处在于它与服务器共享客户端的生成器而不是提取器,以聚合客户端的共享知识,提高模型性能 (如图 1)。

图 1:FedCG 架构概览

  这种策略有两个直接的优势:首先,与服务器可以得到完整的客户端模型的联邦学习方法(例如,FedAvg 和 FedProx)相比,FedCG 没有暴露直接与原始数据接触的模型 (也即,extractor),因此客户端数据泄露的可能性显著降低。其次,服务器可以使用知识蒸馏(Hinton, Vinyals, and Dean 2015)聚合客户端的生成器和分类器,而无需访问任何公共数据。

  一、FedCG 训练步骤

  FedCG 的训练步骤分为两阶段客户端更新(如图 2)和服务器端聚合(如图 3)。在两阶段客户端更新中,首先利用从服务器下发的全局生成器来优化分类网络(包括特征提取器和分类器),然后再训练一个本地生成器来拟合特征提取器的输出表征 G(z,y)≈F(x|y),用这个本地生成器来代替特征提取器, 在服务器端聚合所有客户端的知识同时保护数据隐私。

图 2:FedCG 客户端训练示意图

  在服务器端聚合中,通过知识蒸馏的方式聚合一个公共分类器 Cg 和一个公共生成器 Gg。然后,服务器下发公共分类器和公共生成器给每个客户端。

图 3:FedCG 服务器端训练示意图

  二、FedCG 实验结果

  如表 1 所示,总体来说,FedCG 在 4 个数据集 (共 6 个数据集) 上取得最高准确率. 在 IID 场景 : 在 FMNIST 上达到最高准确率。在 Non-IID 场景: 在 3 个数据集上都达到最优,特别是在 Office 数据集上,FedCG 比第二高准确率的 FedProx 高出 4.35%。

表 1:FedCG 与基线在 Top-1 精度上的比较

  注:粗体字表示最好的性能。*表示没有测量结果。括号内的数字表示客户端数量。

  IID 场景: 所有的 FL 方法在所有的客户端上都以较大的优势超过了本地模型。在 FMNIST 数据集上,FedCG 在所有客户端的表现都是最好的(见图 4(a))。FedCG 的表现与那些共享所有本地模型的 FL 方法相差不大(见图 4(b))。Non-IID 场景: 在所有 3 个 Non-IID 数据集中,没有一种 FL 方法能在每个客户上都击败本地模型(见图 4(c),图 4(d)和图 4(e))。FedCG 在最多的客户端上取得了最好的效果。同时也是击败 local 最多的算法。

图 4:不同数据集实验结果对比

  注:在 5 个数据集上的实验中,在每个客户端上 FEDAVG、FEDPROX、FEDDF、FEDSPLIT 和 FEDCG(红色)与 LOCAL 相比,都取得了精度提高。纵轴是准确性方面的性能差异(%)。正的(负的)收益意味着 FL 方法比 LOCAL 方法取得了比 LOCAL 模型更好(更差)。

  如表 2 所示,隐私分析的实验结果表明,使用 FedAvg,随着 DP 噪声添加得越多,能更好的保护隐私,但会导致较大的准确率损失;使用 FedSplit,能保护隐私, 但有较大的准确率损失;使用 FedCG,能在保护隐私的条件下,取得一个较高的准确率。

表 2: FedAVG,FedSPLIT 和 FedCG 的模型性能与隐私保护效果对比

  三、总结

  FedCG 的目的是保护数据隐私,同时保持有竞争力的模型性能。FedCG 将每个客户的本地网络分解为一个私有特征提取器和一个公共分类器,并将特征提取器保持在本地以保护隐私。它与服务器共享客户端的生成器,以聚合共享知识,从而提高客户端本地分类网络的性能。实验表明 FedCG 具有高水平的隐私保护能力,并且可以实现有竞争力的模型性能。

来源:环球新闻网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。