近日,第二届“隐私保护计算大赛(WPPCC)”落下帷幕。大赛聚焦数字经济发展的核心需求和关键场景,对隐私计算在智能医疗、智能营销等场景的应用,以及“多方安全计算”“可信执行环境”等技术路线进行了探讨。来自国内外高校、企业从业者、科研单位组成的100多个战队,参与了这场国内高规格的隐私计算大赛角逐。中银金融科技有限公司(下称“中银金科”)隐私计算团队结合自身丰富的产业一线经验,利用开源框架“隐语”和自有平台获得了本届大赛“多方安全计算”赛道冠军。
(资料图片)
隐私计算是近年来兴起的新兴技术领域,交叉融合了密码学、统计学、人工智能、计算机硬件等众多学科,可在不泄露原始数据的前提下,实现数据融合、共享、流通、计算,是数字化时代的关键技术之一。
本次大赛由国家工业信息安全发展研究中心主办,蚂蚁集团、锘崴科技等共同协办,也是国内第二届隐私保护计算大赛。2021年,国内行业专家参考全球知名隐私计算大赛iDash比赛模式,发起了“隐私保护计算大赛(WPPCC)”,旨在加强隐私计算在我国高校、科研机构、一线产业之间的交流。
中银金科隐私计算团队负责人、参赛小组负责人张翼飞近日在接受《国际金融报》记者采访时表示,目前隐私计算仍然处于发展早期,面临着计算效率、工程化等瓶颈,行业认知也有待提升。张翼飞认为,未来隐私计算技术的进一步发展,需要多方合力深化数据流通关键技术标准、可操作的指引等方面建设,构建可持续的商业运营模式。
隐私计算发展有赖于多方共同发力
谈及夺冠,张翼飞从三方面做了分析:“由于布局较早,我们在隐私计算技术方面有比较深厚的积累,具有一定竞争力。另外,我们在赛题和数据上面都投入了很多时间去分析,有针对性地搭建了包含专业的建模专家、MPC(多方安全计算)专家、架构师的参赛小组,大家合理分工,准备充足。当然,‘工欲善其事,必先利其器’。我们对比了多个计算引擎,发现‘隐语’框架通过SPU(多方安全计算密态设备)直接对接原生机器学习框架的设计,在易用性和计算性能上都有很好的表现,因此选择了‘隐语’开源框架作为我们的竞赛工具,取得了很好的效果。”
据悉,在本次赛题的准备过程中,中银金科隐私计算团队充分利用MPC技术来应对三方数据泄漏的问题。同时,从算法角度出发,在数据预处理、特征工程、模型三方面也进行了许多尝试,各种编码方案、有效特征构造、模型优化都做了较多尝试,除了常规通用的建模方法,还包含了一些较为学术、先进的算法尝试,也包含有风控建模常用的方法,无监督哈希编码、WOE编码特征、聚类造特征、模型融合等,从多种组合方案中确定最优算法设计方案。丰富的产业实践经验,帮助中银金科隐私计算团队高效地定位了问题核心,并制定了最优解决方法。
张翼飞表示,金融是天然的数据行业。目前,银行业也开始陆续地关注隐私计算相关技术,最核心的还是通过隐私计算技术搭建和外部数据安全使用的桥梁,特别是风控场景。从整体看,隐私计算技术在银行业的应用仍然处于初期阶段,挖掘的程度不够深。大多数人把隐私计算技术当成一个简单的密态计算,这也就造成银行不同职能部门对隐私计算的理解存在一些疑虑。
“随着元宇宙、物联网等生态的持续发展,数据的容量跟场景随之发生变化,数据隐私的问题一定会日益尖锐,而随着一系列信息保护相关的法律法规出台,以及国家对于数据要素市场的加速培育,隐私计算技术必将会发挥更大的价值。”张翼飞判断,随着隐私计算在场景的逐步深入,它的存在形态会朝着基础设施和设备的方向发展。
针对技术认知层面的问题,张翼飞认为,通过举办专业大赛能吸引更多的人关注隐私计算技术,关注开源社区,参与隐私计算的研究工作。“本次MPC赛道的赛题是基于三方数据构建一个预测模型,场景很典型,有很好的示范效果”。大赛也给各机构相关工作者提供了很好的机会和平台去检验自己、提高自己的技能水平,增加对外部的了解。
“对于一个行业的发展来说,市场的各参与主体都是至关重要的。目前隐私计算行业技术体系五花八门,相关标准、规范相对分散,阻碍规模化应用,因而需要在监管机构的统一指导下,深化数据流通关键技术标准的建设。此外,全社会构建可持续的商业运营模式对于维护数据生态的长期健康发展非常重要,隐私计算技术的进一步发展依赖一个更健康的外部环境。” 张翼飞表示。
开源软件助力金融业隐私计算发展
隐私计算的底层技术通常可以分为硬件层面的TEE(可信执行环境)可信计算,软件方面的同态加密、多方计算和差分隐私等计算技术。张翼飞指出,“这些技术有各自特点,在实际的业务场景中,往往需要综合运用这些技术以提供高效、完备的保护能力”。
张翼飞直言,在性能方面,目前隐私计算算法确实遇到了瓶颈,很多改进方案难以从根本上扭转计算效率问题,希望学术界提供一些新思路和新方法,不断突破天花板。
另外,张翼飞认为,“TEE的路线也值得关注,它接近明文的计算性能可能将在超大规模计算领域有所作为。从工程化实现来说,隐私计算的应用场景具有大数据的一般特征,那么分布式计算任务所需要解决诸如计算资源弹性管理、高吞吐、低延时、多任务等老问题也同样是隐私计算实际场景所面对的,这块目前还有提高的空间。”
本次隐私计算大赛中,中银金科隐私计算团队在做使用框架选型时,也做了较为充分的调研,包括对国内外主流框架和公司内部使用的其他系统,经过综合比较分析,最终选择了“隐语”开源框架。“隐语”通过分层设计和开箱即用的隐私保护数据分析、机器学习等功能,有效降低了开发者应用的技术门槛,使隐私计算更加通用化。
整体上来说,“隐语”的易用性较高,在实际的任务开发中,方便开发者进行上层的应用算法开发,也易于部署到实际的多机场景中,并且底层提供了可证安全的多方安全计算算法实现的SPU设备,很好地支持了高效且安全的建模。
张翼飞表示,对于金融机构而言,更关注的是如何利用隐私计算技术搭建数据价值流动的桥梁,从而为业务赋能,从知名的开源软件入手,是很明智的选择。目前国有大行都启动了平台的建设工作,理论研究和工程实现均有展开,开源软件对于我们的帮助是很大的,一方面可以使用开源的计算引擎去支持一些项目级的试点应用场景。另一方面,也可以去借鉴其架构、算法实现构建公司级、集团级的安全计算平台。开源软件也给我们提供了一把尺子,去衡量商业化软件的增量价值。