加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_开封站长网 (http://www.0378zz.com/)- 科技、AI行业应用、媒体智能、低代码、办公协同!
当前位置: 首页 > 大数据 > 正文

联邦学习首个国际标准正式宣告!

发布时间:2021-06-18 10:09:24 所属栏目:大数据 来源:互联网
导读:2018年年底,国内学术界与产业界在隐私计算领域开始了一场基于联邦学习技术的生态建设持久战。 那年12月,IEEE标准委员会(SASB)批准了由微众银行发起的关于《联邦学习架构和应用规范》的标准立项。不久,来自国内外的多位知名学者和技术专家纷纷加入标准工
2018年年底,国内学术界与产业界在隐私计算领域开始了一场基于联邦学习技术的生态建设持久战。
 
那年12月,IEEE标准委员会(SASB)批准了由微众银行发起的关于《联邦学习架构和应用规范》的标准立项。不久,来自国内外的多位知名学者和技术专家纷纷加入标准工作组,参与到联邦学习IEEE标准的建设中。
 
标准,顾名思义,是对某一事物或概念进行的统一规定。不仅要切合实际,还要让大家“心服口服”,共同遵守与维护。
 
这并不是一件易事。工作开始前,标准工作组主席杨强预计:“此类技术标准属于国内首次,没有任何经验可以借鉴。我们预计用五年的时间拿下IEEE联邦学习国际标准!”
 
但事实上,全球数据隐私保护大环境正在发生变化,标准制定也按下了快进键:
 
2018年12月,IEEE标准协会通过标准立项;
 
2019年2月,确定了联邦学习标准的基本框架;
 
2019年6月,增添工作组成员,梳理各自领域内的联邦学习典型案例;
 
2019年8月,讨论联邦学习的评估指标如何量化;
 
2019年11月,对联邦学习的安全测评与评级进行规划;
 
2020年3月,标准草案获IEEE通过,进入评估阶段;
 
2020年9月,标准通过IEEE终版确认;
 
2021年3月,联邦学习标准正式发布。距离立项不到三年,工作组便完成联邦学习国际标准制定(以下称为“标准”),并在今年3月30日通过IEEE确认,形成正式标准文件(IEEE P3652.1)。
 
联邦学习生态的建立,离不开国际标准。作为世界上首个联邦学习国际标准,其参与度之广,印证了合规使用大数据的时代特征;其权威性之高,体现了社会对联邦学习技术的强烈需求。
 
 
 
1、背景:数据隐私之殇
 
2019年1月22日,法国监管机构国家信息与自由委员会(CNIL)对谷歌处以5000万欧元巨额罚款,理由是“违反了GDPR”。
 
这一刻,所有需要数据作为“石油”的公司猛然惊醒:来真的了!
 
2018年,欧洲联盟加速出台了《通用数据保护条例》(GDPR),为全球互联网企业在享受全球化红利的同时,加上了一条重重的锁链:数据安全和用户隐私。
 
作为个人信息保护立法的标志性法规,GDPR的出台是“一点寒芒先到”,随后则是“枪出如龙”。
 
让有志之士没料到的是,数据安全和用户隐私的狂风会袭来的这么快:姓名、生日、信用卡、地址、病史、活动轨迹……只有“合规”,才能触摸到背后的蓝海市场。
 
针对数据安全与用户隐私,学术界此前也取得了许多成就,但在应用中的效果并不佳。
 
第四范式副总裁、主任科学家涂威威说:“同态加密、差分隐私、自动多方机器学习技术、联邦学习等等技术,在社会重视隐私保护意识之前,每年都会有论文产出,每年都会迭代从而适应越来越复杂的数据环境。”
 
然而,在学术界大放光彩的技术,在业界可能遭遇水土不服。差分隐私技术采用加噪声的方法给数据“打码”用来保护隐私,在业界已经早有尝试。但不同于理论上的完美证明,实际产业应用总是“棋差一招”。
 
在与国际人工智能界“迁移学习”技术的开创者杨强交流时,他也谈到:“我们在2012年就用华为的数据进行了一个实验,发现效果非常差,基本上属于伤敌一千,自损八百,所以差分隐私在工业界并没有大规模广泛应用。但(差分隐私)在学术界很火,因为这个课题写出的文章很漂亮。”
 
联邦学习首个国际标准正式发布!
 
解决水土不服问题,有什么比想要“活下去”的大数据科技企业更加迫切呢?
 
2016年,“科技巨头”谷歌利用联邦学习解决安卓手机终端用户在本地更新模型的问题,能够基于本地“小数据”进行不断机器学习训练。
 
而这时,国内的研究团队也发现了这种“数据不出本地”的联合建模技术的强大之处,能确保数据安全、隐私保护和合规。
 
于是,国内学者和企业纷纷开始投入到联邦学习技术研究和“本土化”技术落地中。
 
在早期,国内将「Federated Learning」大多翻译为「联合学习」,现在则多称为「联邦学习」。其中的区别是,如果用户是个人,确实是把他们的模型「联合」起来学习;而如果用户是企业、银行、医院等大数据拥有者,这种技术则更像是将诸多「城邦」结合起来,「联邦」一词会更为准确。
 
这一名字的变化,也反映着联邦学习的研究主体从理论转向实际应用的变化趋势。
 
但要真正解决数据安全、隐私保护和合规问题,还需要一系列的配套措施。
 
只有将政策法规、标准规范等融入到代码、模型中,才能让需求各异的各方信服。
 
 
 
2、万事开头难
 
事情在一开始时并没有那么顺利:应该设定一个什么样的标准?在杨强的预想中,联邦学习技术框架发展迅速,标准需要有技术上的前瞻性和稳定性, 构建客观的测评体系,并对实际应用系统起指导作用。  但到底要怎么做,具体提供什么样的指导功能?这是工作组首先要回答的问题。
 
联邦学习首个国际标准正式发布!
 
图注:标准制定流程,摘自IEEE中国官网
 
一开始就加入标准制定的涂威威也谈到:“困难确实存在,首先要面对‘两个崭新’。标准新:标准工作组虽然有很多资深技术专家,但是对于标准模式大家都有点束手无策;其次,技术新:联邦学习成为主流技术并没有多长时间,也要考虑如何吸引大家积极参与。”
 
当然,这难不倒身经百战的杨强。
 
在产生制定标准的想法之后,他和陈天健在深圳微众银行的大楼达成了共识:一定要接触足够多的机构,尽量面谈取经;不求快,求稳,做好打持久战的准备,至少五年。
 
事实上,在2018年,标准还未立项,对于标准是什么、有什么用等问题还不清楚时,杨强就得到了CCF和IEEE官方的帮助。
 
2018年年初,CCF最先提供了Technology Frontier平台。在杨强提出增设有关隐私的讨论题目之后,CCF只用了几个星期就准备好相关事宜。
 
杨强借助CCF TF这个平台对联邦学习标准制定的一些前置性问题进行了分享,并得到其他相关人员的反馈。
 
随后,杨强又与国家工信部相关人士、IEEE标准协会中国战略合作负责人王亮迪博士等人进行交流。
 
杨强回忆:“当时IEEE标准制定相关的领导还专门过来给我们答疑解惑。当时他带来两个美国人,其中一个是标准委员。他们提了很多建设性的意见,包括说如果真的要建设标准,就不能掺杂自己的偏见。”
 
一番交流后,杨强明白了:一项标准的成文涉及细节非常多,其中定义、概念、分类、算法框架规范、使用模式和使用规范等,都需要反复斟酌。
 
了解了大致流程:建立标准工作组,明确选举过程,制定大纲等等,并做好了打持久战的准备后,杨强便着手开始进行各种调查,研究以前标准制定的相关文档,寻找“老朋友”进行支持。
 
于是就有了最初的标准工作组成员:涂威威、陈雨强、冯霁、胡水海、丛明舒、张钧波......与此同时,也有一些单位在工作组中以观察员身份,持续关注标准制定的进展。
 
2019年尤其关键,因为标准制定的大部分正式讨论会议都在这一年里召开。
 
1月份,元旦刚过,南京大学的周志华教授作为AAAI的主席,便邀请了杨强去夏威夷作特邀报告。这也是人工智能顶级会议上第一次出现联邦学习的“题目”。
 
夏威夷虽处于冬季,吹的却是暖风。特邀报告的反响很好,工作组一合计,便提出不如召开一次正式的讨论会议。这时,距离立项通过不过两个月。
 
联邦学习首个国际标准正式发布!
 
图注:2019年2月,标准工作组在深圳召开第一次会议
 
经过约两个月的讨论,2019 年2月份,工作组在深圳召开了第一次会议。参会人数达到30余位。也正是这30多位业界、学界人士,画出了联邦学习标准的基本框架。
 
正式会议结束后,当天与会者聚集在深圳万豪酒店的阳台上继续交流。杨强直到现在还对当时探讨的具体内容印象深刻,当时聊到很晚,参与的人都讲了自己擅长的领域,大家也更加坚定了打造联邦学习技术生态的信心。
 
 
 
3、会议讨论内外
 
虽然第一次会议比较成功,但作为标准组副主席的冯霁也有自己的担心:
 
一是虽然整体框架已经搭建,但具体细节如何补充才能达到IEEE的要求?另外,接下来要如何说服更多人参与进来,让大家看到这个标准的重要性?
 
“大家背景都不一样,有学者也有业界人士,还有只是感兴趣的参与者,而这份标准的具体内容既不能像论文,也不能像白皮书,更不能只是算法、应用案例的罗列。”在问到标准制定遇到何种困难的时候,冯霁这样回答。
 
这些问题要求标准能够“顶天立地”:一是能够吸收到最新的技术,二能有非常强的实操性,全面考虑所有应用场景。
 
作为一家投资公司,创新工场在解决问题时有自己的方法论。
 
在思想碰撞最为激烈的第四次会议中,冯霁建议在标准中将联邦学习的应用范围限定在To B(企业)、To C(消费者)、To G(政府)三方,大家在讨论时候,先将自己的应用案例进行归类,然后具体问题具体分析,理清楚标准范式的脉络。
 
这样一来,各方参与者在讨论如何在不同的案例场景下应用标准的时候,就更有条理。
 
另一个冲突点是如何对技术内演进行定义,例如安全多方计算这些和联邦学习平行的技术如何融合到大一统的标准框架中。
 
梳理这些技术点的脉络关系,确定外延和内涵,标准组采取的方式是:通过拿科研的文章进行历史性的梳理,参照不同技术之间的综述,追根溯源,找出参与方都满意的答案。
 
联邦学习首个国际标准正式发布!
 
图注:2019年6月,标准工作组召开第二次会议,探讨了联邦学习的定义、框架和案例
 
共识可以通过讨论达成,但在标准制定的全程中,需要考虑的首要问题还是:如何吸引更多的人参与。
 
在回答这个问题时,冯霁的语气中透露出如释重负:“好在大家积极性比较高,也有宣传推广的意识。除了正式的会议之外,一些参与者,尤其是杨强教授一马当先,亲自利用各种机会进行宣讲,特别是致力于让这个标准有更多的国际参与,例如世界人工智能大会、AAAI、IJCAI等都有联邦学习的panel设定,并在美国、澳门召开工作组会议。创新工场也是一样,包括开复本人,也专门对这个技术在各个场合进行布道。”
 
由微众牵头,最早的参与单位有:微众银行、创新工场、星云Clustar、第四范式。
 
随后,工作组成员增加至30多家:松鼠AI、京东城市、腾讯云、逻辑汇、华为、中国电信、小米、华大基因、中电科大数据研究院、Senses Global、依图、趣链科技、百度、海信、蚂蚁金服、Eduworks、AI Singapore……
 
领军人物的“游说”与魅力,以及参与者的长远眼光,勾画出了联邦学习技术在未来的广阔发展空间。
 
在一次和瑞典科技部长的对话中,杨强曾问到:“GDPR对个人数据的强监管措施,对于欧洲AI公司而言,是否是创新的障碍?”
 
部长回答,这看上去是绊脚石,实际上是动力。因为大家会研制下一代的AI,而美国因为没有同等严苛的标准,技术会因此落后一代。
 
因此,善于洞察趋势的有志之士看到了:“联邦学习将成为解决人工智能数据瓶颈的必由之路。”
 
 
4、众人拾柴火焰高
 
2019年中期,一位关键人物加入团队——曾在诺基亚负责MPEG标准制定的范力欣。他在知识产权的标准方面经验非常丰富。
 
范力欣加入之后,直接从另一个方面概括了遇到的困难:在涉及隐私保护这样的课题上,如何以有效的技术方案达成目的, 没有先例可循。但他看到工作组已经集成了联邦学习众多“好手”,心想:大家齐心协力,办法总比困难多,没有过不去的坎。
 
把大家的专业和特长有机整合起来,这是范力欣和工作组同仁达成的共识。
 
联邦学习首个国际标准正式发布!
 
图注:2019年8月,标准工作组在澳门召开第三次会议,聚焦联邦学习各项指标的评估如何量化、标准如何体现联邦学习技术的合规性、联邦学习应用案例的分类归纳等
 
作为To G领域的代表,中电科大数据研究院有限公司程序提到:“大数据院一直以政府治理大数据应用技术为研究重点,在推进政府数据开放共享等方面有很多经验和做法,我们来提供To G领域的应用案例。”
 
逻辑汇的创始人丛明舒作为杨强的学生,自然对恩师发起的项目全力支持:“作为投资研究平台研发商,经济激励我在行,我可以从博弈论视角分析联邦学习商业化过程的经济激励机制。”
 
涂威威总是逻辑清晰,对抛出的问题一针见血:“在我还是学者的时候,就研究过迁移学习下的隐私保护,关于联邦学习的系统定义部分,我来!”
 
星云Clustar胡水海也积极参与:“我们一直研究联邦学习里的底层技术架构,联邦学习标准中的这部分,我可以负责。”
 
在国际上,联邦学习也获得了2018年图灵奖获得者Yoshua Bengio的大力支持。
 
2019年12月13日,Bengio在NeurIPS 2019期间出席微众银行举办的“微众银行人工智能之夜”,在晚会上明确表达了自己对联邦学习的认可,并签署了微众与蒙特利尔学习算法研究所(Mila)的战略合作协议。

(编辑:开发网_开封站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读