面向区域化、产业化的数据要素交易市场正在逐步兴起,数据隐私与安全保护日益增强,冲量在线打造的基于可信执行环境技术的运营商数据共享交换平台,专注于解决运营商数据要素流通链条中的一系列核心问题,包括:数据资产确权、数据隐私和安全、数据定价和交易、数据价值深度挖掘、基础设施自主可控等。可在各类场景中快速交付、无缝扩展,真正在生产场景中实现大规模应用。
一、实施背景
运营商数据体系繁多、数据粒度复杂、数据体量庞大,其对外部企业、金融机构等多行业都具有重要的商业价值,同时运营商内部分支众多,涉及到跨省跨地区的分公司数据共享协作频繁。这些数据在集团内部不同省分公司和子公司之间的共享和交换,将极大促进数据生产要素价值激活,同时也可以帮助集团实现数据资产的对外运营和价值变现。
所以如何解决运营商跨行业的数据交易合规,内部数据的流通共享安全,让运营商的数据更好的在行业内外流动起来,实现数据商品化,是运营商的痛难点。
2021年9月,某运营商联合隐私计算和可控硬件领域的领先企业冲量在线,并充分结合自身数据流通需求,搭建“数据共享交换平台”,建立集团内部各分公司之间的数据流通平台。解决该运营商在作为数据提供方和数据需求方时的数据安全问题,保证其数据在外部数据交易过程中的合法合规性,同时解决分公司内部的客户信息与其它系统或者营销单元的共享和协作。将数据共享模式从原本的一事一议且存在泄露风险,优化至现在的数据任务审批制,并通过可信执行环境TEE实现互联互通。
二、实施目标
本方案主要是为了解决运营商在数据交换过程中数据供需方之间的不同诉求。
需求方诉求:
●高效:在不同的业务场景中,通过统一的数据目录接口获取不同机构的数据源。
●安全:保护算法、用户标签等核心知识产权对数据源和第三方不可见。
●公平:数据的使用全流程记录,数据源对计算结果的贡献度清晰可查。
提供方诉求:
●隐私保护:通过数据脱敏、可信执行环境等多种技术手段保障隐私数据使用安全合规。
●所有权保护:数据可用不可见,确保数据所有权不会发生变更。
●数据资产激活:帮助数据源统一管理自身的数据资产,并通过数据资产血缘帮助管理和获取数据资产价值。
数据信链网主要面向运营商外部的数据交易以及内部的共享交换需求,同时提供外部接口和外部行业数据做数据交换。
三、建设内容
整个系统的功能包含以下5个功能模块:
1、数据确权:
●数据资产登记&所有方登记:唯一标识拥有数据所有权的参与方,参与方可以是机构或人。但应该以交易对象为主。所以本系统直接假设数据所有方是机构。具体机构内不同人的数据确权可以假设机构本身是一个内部的数据网络空间。
数据确权:数据确权指确定出某份数据的权属所有方、数据生命周期和数据沿袭。系统将对所有新增数据进行确权并将信息上链存证。
2、数据定价:
●价值分析:在数据沿袭过程中,系统将分析上游多个数据源对于下游数据的价值贡献。从而为数据供需方的数据定价提供量化输入。
●定价模型:对于不同类型、场景的数据,需要使用不同的模型进行定价。系统提供数据定价模型配置功能,根据数据价值分析结果,使用数据定价模型确定上游数据对下游产生的商业价值。
3、数据交易:
●数据行为追踪:影响数据生命周期的操作,包括创建、拷贝、删除、更改、ETL数据等被定义为数据行为。所有发生在数据网络空间中的数据行为均会作为数据交易行为被系统追踪记录。
●交易行为管理:系统将提供接口给各个边缘节点的数据供需方,用于管理所有的交易行为,包括交易行为的发起、审批、中止等。
4、数据隐私计算:
数据接入计算:外部数据通过可信执行环境节点,安全合规的接入系统,所有的建模、计算、查询等任务均在可信计算节点中进行,计算过程由物理环境保证不可见,过程数据及原始数据在任务结束后销毁,保证数据不落盘,最终只向任务发起方提供计算结果。
5、合规监管:
●日志审计&权限管理:系统提供严格的权限管理,通过角色划分不同使用者,对数据资产登记、交易管理、信息审计等操作进行隔离,并持久化存储用户操作、行为、时间等日志。
四、方案创新点
面对数据资产的粒度复杂、数据的商业价值难以量化、数据交易过程涉及到大量的商业和用户隐私信息等技术挑战,本系统主要从以下几个层面进行了技术创新:
(1)数据确权技术创新:
数据确权,是对数据在三个维度的信息进行确认,包括确认数据元信息的正确性,确认数据行为以及确认数据所有权的归属。通过创新结合数据沿袭技术和区块链技术,实现每一个数据上下游明确,数据链条中每一个数据资产权属清晰。
(2)数据定价模型创新:
在数据定价模型层面,由于数据的商业价值量化必须与实际应用场景、数据累心和供需关系相结合,无法简单通过传统商品定价购买的方式进行,需要研发创新的面向数据交换共享的定价策略和模型。
目前在学术界已经对于数据价值分析和价格模型有了一定的研究基础,根据数据沿袭过程中的数据、算法和算力贡献进行价值评定,本系统将会以这些算法作为理论基础,并通过区块链智能合约进行代码层面的实现。
在此基础上,为了让这套基础模型更加适用于集团内部的实际业务场景,以及反映不同类型数据的差异化价值,需要针对该模型进一步改造创新,整理分析集团数据共享交换中主要的数据应用场景和数据类型,支持不同数据提供方设定各类数据的价值权重,并为数据需求方提供基础的价格参考。然后通过与系统量化分析的数据价值评定结合,最终输出数据的商业定价。
(3)基础设施国产化创新:
系统的分布式记账节点需要基于可信和安全的基础设施来搭建,从硬件层面来讲,需要支持使用自主可控的国产化芯片和服务器,在软件层面,涉及实际数据交易行为的执行,以及链上对链外实际交易的隐私信息的比对、准确性验证等相关逻辑应当在可信执行环境中执行。
因此系统将会全面适配包括海光、兆芯等在内的主要国产化芯片,同时基于这些国产化芯片进行上层可信执行环境和区块链技术的研发,将国产化的可信执行环境技术与区块链技术进行深度整合,充分发挥二者在数据安全与公正可信方面的优势。
在软件层面,系统将会针对国密算法进行适配,支持数据计算、数据传输、数据存证过程中使用国密算法进行加密处理,从而进一步提升系统的安全系数,满足合规要求。
(4)业内唯一全技术栈国产化:
支持国产TEE硬件类型业内最全,国内首创,可信计算3.0体系架构分布式实现与深度融合。
(5)业内唯一TEE-PaaS实现:
统一TEE计算服务平台:整合硬件TEE算力、异构计算加速、AI in TEE、分布式计算框架一体的计算服务,业内首个集群化TEE操作系统D-TEEOS,全量信创分布式可信算力的统一调度与管理。
(6)业内创新的异构TEE硬件加速:
业内首个使用拆分学习完成TEE深度学习加速,首家全栈支持GPU直通TEE技术。软件层面利用Split Learning技术,把深度神经网络的模型进行合理拆分,在TEE内保证训练数据的"可用不可见",利用GPU对模型训练时性能敏感部分进行异构加速,从而显著的提高模型的训练速度。
五、实施效果
1、通过可信执行环境优化MPC、联邦学习,解决了运营商作为数据的需求方和提用方时数据的安全问题。
2、硬件层面基于国产化芯片,软件层面使用有冲量独立开发的数据互联平台,满足了运营商行业对IT设施和软件严格的自主可控的要求。
3、综合考虑运营商数据资产的粒度复杂、数据的商业价值难以量化等特点,解决数据交易过程涉及到大量的商业和用户隐私信息等数据隐私安全问题。
4、解决运营商在内部数据共享、外部数据交易过程中数据使用的合法合规性。