侵权投诉
订阅
纠错
加入自媒体

联邦学习: 统一数据协作和隐私保护的技术解决之道

2020-06-24 10:58
将门创投
关注

联邦学习的经典落地案例,google输入法的智能推荐应用

传统Gboard的推荐系统:敲击键盘的数据会被上传到谷歌的服务器,通过直接收集大量数据来训练智能推荐模型。

基于联邦学习的方案:用户敲击键盘的数据保留在本地。用户的手机中有一个不断更新的模型会根据这些数据进行学习和更新,并将更新的权重加密上传到服务器。服务器收到大量用户的模型后,根据这些模型进行综合训练。

联邦学习方案的突出优点是能隐私保护,即无需传输原始数据,原始数据始终保持在设备本地。

传统的模型跟新需要收集大量数据,定时跟新发布模型;新的模式可以是的设备实时下载模型,并迭代,使得用户行为最快的反应在新的模型中,达到实时更新模型。

一般的联邦学习方案可以分为三个步骤:

1. Selection:满足条件的设备会向服务器提出请求,参加到训练中来,服务器接收到请求之后,根据参与设备数、超时时间这些因素,选择一部分设备参与到本轮训练中来;

2. Configuration:服务器的配置主要是服务器选定模型整合的方式,同时服务器会将具体的FL task和当前的FL checkpoint发给各个设备;

3. Reporting:服务器会等待各个设备将训练的结果返回,并采用聚合算法进行聚合,然后通知设备下次请求的时间,判断更新的成功和失败。在整个过程中,存在着一个步速控制模块,管理设备的连接情况。保证每轮训练有合适的设备参与。

综上所诉,联邦学习的保护了以下几个重要优点:隐私保护性:用户个人数据无需上传到云端,用户的数据无需提供给服务提供商,从而提高用户数据的隐私性;降低了延时:尽管5G时代即将到来,但并不是在任何情况下任何地点的网速都能得到保障。如果将用户所有的数据都上传到云端,且服务本身也是从云端进行的反馈,那么在网速较慢的环境下,网络延时将会极大降低用户体验。而联邦学习加持下的服务则不会出现这种情况,因为服务本身就来自于本地。

联邦学习带来的挑战

联邦学虽然有诸多优点,但在实际落地的过程中还是会遇到各种挑战。

系统异质性:由于客户端设备硬件条件(CPU、内存)、网络连接的不同,联邦学习网络中每个设备的存储、计算和通信能力都有可能不同。此外,不同设备还会出现断网,死机等情况。这种特征影响了联邦学习整体的稳定性。

数据异质性:设备和用户的不同,导致产生的数据类型也有差异。跨设备的特征等可能有很大的变化,导致数据的非独立同分布。目前,主流机器学习算法主要是基于 IID 数据的假设前提推导建立的。因此,异质性会给模型的收敛,精度带来了很大挑战。

通信代价:在联邦学习过程中,原始数据保存在远程客户端设备本地,必须与中央服务器不断交互才能完成全局模型的构建。

联邦学习的拓展

早期的联邦学习主要应用在移动设备的模型更新,在这个过程中,不同设备具有类似的数据和特征空间,需要聚合不同的样本,达到在不分享原始数据的前提下,建立高效的模型。有些前辈基于数据库结构,叫他横向联邦,但是比较难以区分,我们这里暂时称为样本联邦。

相对于样本联邦,它的另一面是特征联邦,就是相同的样本,但是不同的特征在不同机构手里。这个也是非常常见的案例,例如我们开头提到的社交网络公司和电商公司对用户数据收集的案例。

从样本联邦到特征联邦

随着联邦学习的发展,联邦学习的范畴从样本联邦到特征联邦拓展。典型的案例,包括线性回归,树状模型等等。

安全性补充

联邦学习的显著优点是不分享原始数据的前提下建立联合模型,但是它是真正的安全吗?不存在任何风险点了么?我下面们从联邦学习的参与者角色和过程,探讨联邦学习的安全性。

安全性挑战之一:中央服务器的存在。在训练过程中传递模型的更新信息仍然不断向第三方或中央服务器报告,第三方可以不断收集所有参与者不同轮的数据,有机会进行分析推导,也是系统中的single point failure。

去除第三方中心,例如,使用多方安全计算实现梯度更新的聚合,将会使得系统的安全性得到提高。

安全性挑战之二:数据传输的问题。在训练过程中传递模型的更新信息仍然不断向第三方或中央服务器报告,虽然梯度不是原始信息,但是依然存在暴露敏感信息的风险。依然有机会可以从梯度、模型参数更新中反推出用户数据,所以需要进一步保护,可加入差分隐私,加密保护等技术手段实现。

安全性挑战之三:单方数据污染。由于每个worker都是独立的,传统的联邦学习中,server并没有高效的鉴别worker数据正常性的能力,导致worker的异常输入并不一定能够及时发现和处理。从而导致单方数据污染,严重影响模型训练过程,和最终的模型效果。甚至有目的的改变模型训练效果,数据源的质量监控,防止训练数据的恶意污染异常重要。

<上一页  1  2  3  4  下一页>  余下全文
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

安防 猎头职位 更多
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号