联系我们

AI 101

什么是联合学习?

mm

更新

 on

什么是联合学习?

训练AI模型的传统方法包括建立服务器,其中通常通过使用基于云的计算平台对模型进行数据训练。但是,在过去的几年中,出现了一种替代的模型创建形式,称为联合学习。 联合学习 带来 机器学习 建模到数据源,而不是将数据引入模型。联合学习将多个计算设备链接到一个分散的系统中,该系统允许收集数据的各个设备帮助训练模型。

在联合学习系统中,作为学习网络一部分的各种设备在设备上都有模型的副本。不同的设备/客户端 训练自己的模型副本 使用客户的本地数据,然后将各个模型的参数/权重发送到主设备或服务器,该主设备或服务器将参数汇总并更新全局模型。然后可以重复该训练过程,直到达到期望的精度水平。简而言之,联合学习背后的想法是,任何训练数据都不会在设备之间或各方之间传输,只有与模型相关的更新才能传输。

联合学习可以分为三个不同的步骤或阶段。联合学习通常从充当基线并在中央服务器上进行训练的通用模型开始。第一步,此通用模型被发送到应用程序的客户端。然后,对这些本地副本进行有关客户端系统生成的数据的培训,以学习并提高其性能。

在第二步中,所有客户端将他们学习到的模型参数发送到中央服务器。这是按设定的时间表定期发生的。

在第三步中,服务器在收到学习到的参数后会对其进行汇总。汇总参数后,将更新中央模型并与客户端再次共享。然后重复整个过程。

拥有副本的好处 该模型在各种设备上的作用是减少或消除了网络延迟。也消除了与服务器共享数据的相关成本。联合学习方法的其他好处包括以下事实:联合学习模型受到隐私保护,并且模型响应针对设备的用户进行了个性化设置。

联合学习模型的示例包括推荐引擎,欺诈检测模型和医疗模型。 Netflix或Amazon使用的媒体推荐引擎可以接受从数千个用户那里收集的数据的培训。客户端设备将训练自己的独立模型,而中心模型将学会做出更好的预测,即使各个数据点对于不同用户而言都是唯一的。类似地,可以使用来自许多不同设备的活动模式来训练银行使用的欺诈检测模型,并且少数几个不同的银行可以协作来训练一个通用模型。就医学联合学习模型而言,多家医院可以联合训练一个通用模型,该模型可以通过医学扫描识别潜在的肿瘤。

联合学习的类型

联合学习模式 通常属于两种不同的类别之一:多方系统和单方系统。单方联合学习系统称为“单方”,因为只有一个实体负责监督学习网络中所有客户端设备之间的数据捕获和流。尽管数据点通常对于各种用户和设备而言是唯一的,但客户端设备上存在的模型是在具有相同结构的数据上训练的。

与单方系统相比,多方系统由两个或多个实体管理。这些实体通过利用他们可以访问的各种设备和数据集来协作以训练共享模型。在属于多个实体的设备上,参数和数据结构通常是相似的,但不必完全相同。取而代之的是进行预处理,以标准化模型的输入。可以采用中性实体来汇总由不同实体所独有的设备确定的权重。

联合学习框架

用于联合学习的流行框架包括 Tensorflow联合, 联合AI技术使能器(FATE) PySyft。 PySyft是基于以下内容的开源联合学习库: 深度学习 库PyTorch。 PySyft旨在确保使用加密计算在服务器和代理之间进行私有,安全的深度学习。同时,Tensorflow Federated是另一个基于Google Tensorflow平台构建的开源框架。除了使用户能够创建自己的算法之外,Tensorflow Federated还允许用户在自己的模型和数据上模拟许多随附的联合学习算法。最后,FATE也是由Webank AI设计的开源框架,旨在为联合AI生态系统提供安全的计算框架。

联合学习挑战

由于联盟学习仍处于新生阶段, 诸多挑战 为了充分发挥其潜力,仍需进行谈判。边缘设备的培训能力,数据标记和标准化以及模型收敛是联合学习方法的潜在障碍。

在设计联合学习方法时,需要考虑边缘设备的计算能力,以进行本地训练。尽管大多数智能手机,平板电脑和其他与IoT兼容的设备都可以训练机器学习模型,但这通常会降低设备的性能。必须在模型准确性和设备性能之间做出折衷。

标记和标准化数据是联合学习系统必须克服的另一个挑战。监督学习模型要求训练数据清晰且一致地标记,这在系统的许多客户端设备上可能很难做到。因此,开发模型数据管道以根据事件和用户操作以标准化方式自动应用标签非常重要。

模型收敛时间是联邦学习的另一个挑战,因为联邦学习模型的收敛时间通常比本地训练的模型要长。训练中涉及的设备数量为模型训练增加了不可预测性,因为连接问题,不规则更新,甚至不同的应用程序使用时间都可能导致收敛时间增加和可靠性降低。因此,当联合学习解决方案提供优于集中训练模型的有意义的优势时(例如,数据集非常大且分散的实例),联合学习解决方案通常最有用。

Photo: Jeromemetronome via Wikimedia Commons, CC 通过 S.A. 4.0 (//en.wikipedia.org/wiki/File:Federated_learning_process_central_case.png)

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。