李晓林:联邦学习渐成生态,知识联邦支持可信AI发展
发布时间:2021-06-18 10:05:18 所属栏目:大数据 来源:互联网
导读:在6月6日于杭州举办的全球人工智能技术大会可信AI专题论坛上,来自加州大学伯克利的宋晓冬教授(江湖人称安全教母)这样描述数据:数据是一种非竞争性(non-competition)的知识。 什么叫非竞争性?所谓非竞争性,是相对于部分商品具备的排他性而言。比如,
在6月6日于杭州举办的全球人工智能技术大会可信AI专题论坛上,来自加州大学伯克利的宋晓冬教授(江湖人称“安全教母”)这样描述数据:数据是一种非竞争性(non-competition)的知识。
什么叫“非竞争性”?所谓“非竞争性”,是相对于部分商品具备的“排他性”而言。比如,同一时间与地点内只存在一个充电宝,但用户A与用户B的手机同时没电,两个人都需要充电,那么A与B之间就存在竞争关系。
但在数据层面,如果N个用户都需要各品牌车辆销售信息、平台品类消费总量、视频点击率等等数据,那么他们是可以同时使用的。也正是因为数据的可共享特征,人工智能才得以在现代科技中崭露头角,可以说:没有大数据,就没有深度学习;没有深度学习,就没有火热发展的人工智能。
然而,近几年,随着人们对数据隐私安全的越发重视,加之以2018年《欧盟一般数据保护条例》(即“GDPR”)为代表的各国数据隐私保护政策出炉,数据的获取与使用受到了一定限制。今年4月,欧盟又发布了全球首个针对人工智能技术的监管法规草案,禁止在公共场合使用人脸识别技术。
人脸识别是计算机视觉目前的主要商用方向,欧盟最新监管草案的出台无疑加大了人工智能落地的阻碍。同时,人工智能作为最前沿的技术之一,在医疗、金融、交通等信息数据敏感的重要社会领域中能发挥的作用也会越来越少。
事实上,在人工智能领域,除了以人脸识别为代表的图像感知模型对数据有较大依赖,被称为“通往通用人工智能的必经之路”的强化学习也离不开大数据的支持。强化学习的训练必须包含对数据的反复试错(trial and error),从而找到最优策略,以此来提高机器的决策能力。如果数据无法到位,那么强化学习的进步将受到限制,决策人工智能的实现也会难上加难。
那么,如何能够保证数据隐私不被泄露、又能正常使用数据进行研究呢?学术界与业界进行了多方探索,从同态加密到差分隐私,再到自动多方机器学习技术,最后,能够实现“数据可用不可见”的联邦学习(Federated Learning)技术脱颖而出,成为公认的数据调用“一把手”。
作为一种机器学习模式,联邦学习能够通过AI模型,在保护数据贡献方的原始隐私数据的前提下,协作完成特定的机器学习任务。
在早期,国内将“Federated Learning”翻译为“联合学习”,后来又改为“联邦学习”,因为如果用户是个人,确实是把他们的模型「联合」起来学习;而如果用户是企业、银行、医院等大数据拥有者,这种技术则更像是将诸多「城邦」结合起来,「联邦」一词会更为准确。
来自同盾科技的李晓林教授是国内最早推动联邦学习的学者之一。李晓林教授是同盾科技合伙人、人工智能研究院的院长。曾任美国佛罗里达大学终身正教授、计算机工程部主任,作为创始中心主任,牵头创立了美国首个国家级深度学习中心NSFCBL(佛罗里达大学、卡内基梅隆大学、俄勒冈大学、密苏里大学四校联盟),主要研究方向包括机器学习/深度学习、智能平台、云计算、安全与隐私等等。
在联邦学习的基础上,李晓林教授提出了“知识联邦”的理论框架,包括信息层、模型层、认知层和知识层,首次将认知和知识引入隐私计算范畴,目标是实现下一代可信、可解释、可推理、可决策的人工智能。为了提升深度学习模型的可解释性,研究者在知识图谱、因果推理等方向进行了深入研究,推敲数据的真实性、区分数据与事实的关联性是因果解释中的重要一环。
李晓林:联邦学习渐成生态,知识联邦助力可信AI发展
据悉,同盾科技还于2020年牵头成立了知识联邦产学研联盟(AKF),联合浙江大学、中科院医学所、复旦大学、哈尔滨工业大学、华东师范大学、百度大数据实验室、360集团、平安科技、明略科技等众多学界、业界单位组成。促进相关主体之间的交流和深度合作,促进知识共享和供需对接,形成优势互补,有效推进知识联邦学术理论、工程技术、标准化、产业链快速发展,联手各方力量共同构建知识联邦优质生态,切实解决企业、高校、研究机构的现实问题。
以下是AI科技评论对李晓林教授进行采访的内容整理:
1、与联邦学习相比,“知识联邦”进行了哪些拓展?为什么要加入“认知层”与“知识层”?
联邦学习是知识联邦的一个子集,专注于数据分布的联合建模。知识联邦关注的是安全的、数据到知识的“全生命周期”的知识创造、管理和使用及其监管,支持智能决策,致力于推动下一代人工智能,而不仅仅是一个安全的联合建模。
2、与联邦学习相比,知识联邦的优势体现在哪些方面?实现知识联邦需要突破哪些困难?
与联邦学习相比,知识联邦一个重要的技术前提是数据的知识化,将数据转化成为模型策略知识,再对分散的知识聚合。我们希望通过知识融合或推理,让知识在知识网络中自由流动,挖掘出更全面、更有价值的知识,实现智能决策。
而知识驱动的联邦技术则是在数据联邦的理念上进一步升华。从定义上来说知识联邦是一个更为宏观的理论体系和技术框架,将数据、信息、知识、智慧纳入到一种金字塔形的层次体系。雷锋网
如何确立一个可信的第三方,充当合格的协调者和监管者;如何保证智邦平台中数据提供者的公平性,如何解决恶意参与者的问题,怎么完善各参与方的激励方式,激发各方的积极性和配合度,以及如何让参与各方均无条件认可平台的安全性等问题,都是在未来需要我们克服的问题。
3、“知识可创可共享”,怎么理解这句话呢?
举个例子,在个人信用风险评估时,可能会需要个人的收入情况、消费能力、贷款情况以及其它信息,而这些信息可能分布在不同的机构中。如果我们想得到信用风险评估这个知识,就需要联合相关机构参与任务,建立相应的任务联盟。尤其是那些中小微企业,自由数据量少,需要借助外部数据才能开展业务,通过联邦平台建立小范围的任务联盟就可以有效解决这个难题。雷锋网
这个过程中,既实现了“新”知识的创建,又实现了知识的共享,更重要的是缺乏数据的中小微企业也能从中分享到属于自己的知识。
![]() (编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |