发布日期:2024-11-28 访问量:
11月27日下午,数据工程与知识工程教育部重点实验室举办了第二期德科前沿技术讲座。本期讲座的主题为“时空大数据联邦计算”,由北京航空航天大学计算机学院童咏昕教授主讲,由数据工程与知识工程教育部重点实验室范举教授主持,吸引众多师生参与。
讲座伊始,范举教授对报告人和参与师生表示欢迎,并详细介绍了讲座报告人的研究领域及成果。
童咏昕教授首先阐述了时空联邦计算的研究背景。隐私保护的数据流通在国家科技发展和社会治理层面愈发重要,广泛应用于多个领域。如在共享平台领域,高德地图、百度地图等公司需要完成协同各平台车辆调配任务;在社会治理领域,公安需要企业数据协助追踪目标;在智慧交通领域,交通管理部门需要完成人流预测。传统的数据仓库或数据湖是“计算不动数据动”,现代的联邦计算是“数据不动计算动”,这其中我们更关注时空数据的联邦计算。
随后,童咏昕教授详细解析了联邦场景的发展脉络。在初期阶段,联邦数据库管理分布式异构数据库,来源于大公司并购小公司,需要在异构数据库上直接查询的需求。在这一阶段,尚未考虑跨域数据的隐私问题。随着安全多方数据挖掘引起隐私泄露担忧,尽管在此期间产生了许多理论成果,但是相关实验少,因为计算开销大、工程实现复杂,其实用性受到一定限制。然后是数据加密和脱敏计算库的出现,为解决这一问题提供了有力支持,极大地降低了开发成本。最后是当前的大数据联邦计算,其中联邦学习因为是聚合操作比较简单,但是更深入的查询仍面临诸多挑战。
接下来,童咏昕教授揭示了联邦计算的三个关键问题。第一,博弈建模。即如何建立基于博弈理论的联邦价值度量模型。在数据多源自治,价值参差不齐的情况下,需要明确联邦成员贡献,避免联邦计算中出现“搭便车”现象。第二,管理查询。即如何在多尺度隐私保护约束下优化联邦查询效率。第三,联邦学习。梯度反演攻击可能引发隐私泄露问题,但是由于隐私假设不同,学界对隐私泄露的可能性尚有争议。此外,非独立同分布的数据联邦学习收敛困难。
然后,童咏昕教授深入剖析了跨平台司乘分配的实例,围绕博弈建模、管理查询、分析学习的关键问题,讲解了跨平台司乘分配领域的技术探索。他重点介绍了其团队结合产业应用需求所研发的联邦计算开源平台——“虎符(OpenHufu)”,虎符系统已经适配当前各种主流时空大数据计算平台,并广泛应用于交通出行与社会治理等行业。具体而言,虎符系统能够有力支撑交通资源的跨平台调度运维服务,以及为国家重大活动提供应急安全保障,彰显了其在实践中的强大效能与广泛适用性。
最后,童咏昕教授就数据合规、联邦大模型及端侧部署三个方面,分享了对于联邦计算的未来展望。第一,数据胶囊即数据加隐私约束是一个可行的研究方向;第二,在公域数据被大量挖掘,私域数据受到严格保护的背景下,研究挑战聚焦于如何解决大模型的训练数据缺口,而联邦学习技术日趋成熟,可为大模型提供更强的数据支撑;第三,端侧设备联邦计算正在兴起,展现出广阔的应用前景。
讲座后,老师和同学们就讲座内容,与童咏昕教授展开了热烈讨论和交流。本期德科前沿技术讲座圆满结束。