背景
随着数字经济的发展,数据成为各机构的核心资产之一,通过数据流通提升数据资产价值的需求不断增多,与此同时,国家和相关机构对数据安全和隐私保护方面的要求和监管都日益严格,如何打破“数据孤岛”,在保护隐私满足合规要求的前提下实现数据流通,成为备受关注和亟待解决的问题。
典型的如广告行业,广告主和广告平台拥有各自的用户数据,出于保护商业机密和满足安全隐私合规要求的考虑,需要在不直接共享双方用户数据的情况下,进行精准营销和广告效益评估等业务。例如在精准营销场景,广告主持有广告投放的粗筛目标人群包,希望针对特定用户群进行推荐。若直接将粗筛人群包全部发送给广告平台并进行处理,会使得平台获取到粗筛人群包中未落入目标人群的数据,导致特定集合以外的用户信息发生泄漏,无法保护数据的隐私安全,也不符合安全合规的要求。
Jeddak数据安全沙箱
为了应对上述挑战,字节跳动安全研究团队自研了Jeddak数据安全沙箱,沙箱以可信执行环境(Trusted Execution Environment,TEE)为核心,提供安全、高效、通用的广告精筛、归因分析等隐私计算能力。目前Jeddak数据安全沙箱已通过火山引擎对外提供服务,并为某头部金融公司在国内某广告平台投放过程的用户隐私,提供安全保障。
Jeddak数据安全沙箱提供的保障来自于两个层面:
在计算层面,沙箱实现了广告投放全流程的密文计算,广告主与广告平台只需要分别加密各自数据,安全传输给沙箱的Enclave进行数据融合。Enclave是一个由TEE硬件安全技术所保护的“安全保险箱”,这个保险箱中运行着隐私计算下的广告投放服务。在Enclave的安全特性的保障下,其他实体无法修改运行的服务逻辑,也无法窥探在保险箱中的数据。计算任务完成后,平台侧仅可获取到预期的精筛人群包或归因分析的结果,这规避了广告主数据直接提供给平台的合规风险。
在数据层面,沙箱希望可以进一步打消用户对于方案的选型顾虑,如单纯信任TEE硬件技术这一道保障。对此我们创新性地设计并引入了“信任分割”技术——在广告投放时,由广告主与(甚至多个)平台之间协商得到的秘密参数,基于秘密参数对传入沙箱的数据进行混淆处理,这样便使得即使攻击者获取到沙箱Enclave里的中间态数据,仍然无法逆推出原始信息,从而通过信任分割将沙箱转化为弱敏感数据的计算节点进行使用,这一特性缓解了由于侧信道攻击带来的硬件系统风险。
火山引擎对沙箱方案进行了包括分治、多进程在内的实现优化,相对于纯软件隐私保护方案,在性能方面已体现出显著的优势,例如人群包筛选服务,初步优化后的沙箱方案比现有软件最佳实践方案快10倍以上,在1小时内可完成广告主千万级别与广告投放平台十亿级别的筛选任务,大幅减少金融客户广告投放任务的执行效率,并为后续广告归因、实时定价、用户群行为建模提供安全高效的实施渠道。
总体来看,数据安全沙箱结合可信硬件和信任分割机制,保障工作模式安全性,既可以防范纯硬件方案的单一信任风险,又可以解决纯软件方案算法适配性、开发效率与执行效率低等难题。
其他领域实践
除了应用在广告投放领域,目前沙箱产品也已在联合营销、政务疫情防控、生信大数据分析等场景下,帮助客户安全合规地使用数据,挖掘多方数据价值。
面向多元场景,沙箱构建了通用的计算引擎和算法仓库,例如支持基于Tensorflow/Pytorch的多源数据融合下的机器学习、支持基于Spark进行大数据分析处理、基于联盟链的状态存证与验证能力,方便用户在不同场景下定制和使用隐私计算。沙箱兼容多种安全运行时,并将逐步适配多种底层TEE硬件平台,从而降低用户开发部署TEE应用的门槛。
此外,数据安全沙箱研发了融合加速引擎,可以定制化地为多方安全计算、联邦学习等多种计算过程提供加速能力,能够提升纯软件隐私计算方案的执行效率,目前数据安全沙箱可以数十倍地提升隐私集合求交、纵向联邦学习等过程的执行效率。
结语
路漫漫其修远兮,如何有效打破“数据孤岛”,完成隐私合规要求下数据要素的安全流通,实现真正高效、易用的数据“可用不可见”过程,仍然是Jeddak数据安全沙箱不断探索和尝试突破的长期命题。
在面向开源、通用、自主可控的方向,火山引擎除了提供Jeddak数据安全沙箱产品外,还将深入行业实际应用场景,进一步丰富云安全系列产品矩阵,努力为用户带来丰富和便捷的安全计算功能。