本文来自微信公众号“大信创圈”,作者/信小创。
中央及地方政策密集出台,
数据局成立有望推动产业加速落地
纲领性政策文件密集出台,国家数据局成立推动产业进入实质性落地阶段。2022年12月,国务院发布“数据二十条”,从数据产权、流通交易、收益分配、安全治理四方面初步搭建中国数据基础制度体系,提出20条政策举措,确立了数据要素发展顶层指导框架。同月,财政部印发《企业数据资源相关会计处理暂行规定(征求意见稿)》,对于符合条件的数据资源,内部使用确认为无形资产,外部交易确认为存货,数据资产入表有助数据要素价值可视化。2023年3月,十四届全国人大一次会议举行第二次全体会议,根据国务院关于提请审议国务院机构改革方案的议案,组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。
2022年下半年以来数据要素相关政策
地方层面,今年多个省市密集发布数据要素相关政策。北京、上海、广东、浙江、江苏、山东、四川等各地积极响应,从数据产权登记、公共数据开放、数据流通交易等方面积极探索,切实推动各地数据要素市场化改革落地。
近半年发布的数据要素地方性政策
当前我国数据要素市场处于高速发展阶段,“十四五”期间规模超千亿。“十三五”期间,我国各要素市场规模实现不同程度的增长,以数据采集、数据储存、数据加工、数据流通等环节为核心的数据要素市场增长尤为迅速。据国家工信安全中心测算数据,2020年我国数据要素市场规模达到545亿元,“十三五”期间市场规模复合增速超过30%;预计“十四五”期间市场规模复合增速将超过25%,到2025年市场规模达到1749亿元。
(左)2016-2025年中国数据要素市场规模
(右)2021年中国数据要素细分市场规模(亿元)
我国数商生态持续扩容。数商是数据要素市场的参与主体,主要职能是为数据交易双方提供数据产品开发、发布、承销和数据资产的合规化、标准化、增值化服务,促进提高数据交易效率。上海数据交易所将数据服务商分成基础设施提供商、数据资源集成商、数据加工服务商、数据分析技术服务商、数据治理服务商等15类。“数据二十确提出,培育一批数据商和第三方专业服务机构。
数商生态产业图谱
多地探索公共数据运营新模式,
医疗数据要素或将先行
公共数据作为数据资源的重要组成部分,蕴藏着巨大的经济和社会价值,我国高度重视并大力推动公共数据开发利用和运营。根据《国家数据资源调查报告(2021)》,我国2021年数据产量6.6ZB,其中个人数据产量为1.4ZB,各类行业机构产生数据5.2ZB。行业分布看,数据产量排名前五位的行业分别为政府、互联网、媒体、公众服务及专业服务、交通,前五大行业数据产量占全国行业机构数据总产量的65%。国家“十四五”规划提出,“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用”,《“十四五”数字经济发展规划》进一步提出,通过数据开放、特许开发、授权应用等方式,鼓励更多社会力量对政务数据和公共数据进行增值开发利用。随着数据要素市场化配置改革、数据安全、网络安全、个人信息保护等政策法规颁布实施,公共数据运营正迈入落地实施阶段。
公共数据运营主要分为行业主导、区域主导、场景牵引三种模式。根据赛迪研究院的研究成果,我国公共数据授权运营主要形成三种主要模式:一是行业主导模式,主要由垂直行业管理部门授权和指导其下属机构承担数据运营平台建设、场景开发和市场运营;二是区域一体化模式,主要由地区数据管理机构以整体授权形式委托数据运营机构开展平台建设和市场运营;三是场景牵引模式,主要基于特定应用场景分类授权引入专业数据运营机构,分领域、分场景激活公共数据价值的运营模式。
我国公共数据授权运营主要模式
多个省市成立数据集团,有望成为各地政府参与数据运营的抓手。央企层面,中国电子数据产业集团于2022年12月成立,是国内首家由中央企业设立的数据产业集团;地方层面,上海、河南、福建、陕西、成都、南京等地陆续成立数据集团,多为政府主导。部分数据集团为当地数据交易所的控股股东。数据集团以数据为核心业务,实现公共数据、行业数据和社会数据的交汇、供给、配置及市场化开发利用,开展数字资产运营、数据交易服务和数字产业投资。数据集团也可作为电子政务公共平台,实现电子政务网络+云+平台系统建设一体化,助推数字经济发展市场化、专业化。
我国中央及地方性数据集团
医保数据要素具备较好的落地基础和清晰的商业模式,且已有相关地方政策开始探索,或将成为率先落地场景。一方面,我国已具备一定的医疗信息化基础,2022年3月,全国统一医保信息平台已在31省全域上线,该平台包括公共服务、经办管理、智能监管、分析决策共4大类14个业务子系统,实现了标准全国统一、数据两级集中、平台分级部署、网络全面覆盖、系统安全可控,实现了国家、省、市、县四级医保信息互联互通、数据有序共享,为医保数据要素的流通交易奠定了充分基础。另一方面,医保数据具备较为清晰的落地场景,如杭州市数据资源管理局起草的《杭州市公共数据授权运营实施方案(试行)》,其中明确提到“推动重点场景应用。如普惠健康险场景,通过融合保险数据、诊疗数据、医保数据、健康数据等。”;《青岛市公共数据运营试点管理暂行办法》公开征求意见提出在公共数据运营平台中设置医疗专区,围绕“医疗、医保、医药”应用场景建设,医疗人工智能企业药企、保险公司等三医行业相关企业,可通过医疗专区申请并使用医疗数据,可用于智慧核保、快速理赔、药物研发等医疗场景。
数据交易所建设如火如荼,
数据产品不断丰富
我国大数据交易所建设方兴未艾,加速数据要素价值转化。我国自2014年开始探索建立类似证券交易所形式的数据交易机构,随着数据要素相关政策的推动,数据产品交易迎来2.0时代。截至2022年底,全国数据交易所已近50家。各大数据交易所交易主题、上架产品以及交易规模都处于快速发展态势,数据产品和服务类型日益丰富,能够提供数据AP1、数据集、数据报告等多种形式的产品和服务:
•贵阳大数据交易所:2015年4月正式挂牌,是全国第一家大数据交易所,根据数据交易网披露,截至2023年6月21日,贵数所已累计集聚“数据商”、“数据中介”等市场主体629家,上架产品1055个,交易888笔,共计交易额达14443万元。贵数所表示,力争到2025年,年度交易额突破100亿元。
•上海数据交易所:2021年11月揭牌交易,根据数据交易网披露,2022年,上海数据交易所数据产品挂牌超800个,涉及金融、交通、工业、通信等12个行业领域,交易金额突破1亿元。上海交易所总经理汤奇峰表示,2023年,场内交易有望突破10亿元。
•深圳数据交易所:2022年11月15日挂牌运营。截至2023年6月,深数所已累计交易突破700笔,覆盖165个应用场景,生态合作机构突破900家。汇集数据产品超1500个,服务触达2000家以上市场主体。预计未来2-3年,其数据交易规模超过100亿元,对经济增加值贡献超过50亿元。
国内大数据交易所(中心、平台等)建设历程
部分数据交易所的数据服务与数据类型
高质量数据是AI大模型的“燃料”
数据是人工智能三要素之一,大模型的训练离不开高质量的数据集。数据集的质量直接影响着大模型的性能和表现。一个优质的数据集应该具备多样性、广泛性和准确性,以确保模型能够获取全面而可靠的信息。例如,在训练NLP大模型时,如果数据集中只包含特定领域的文本,比如新闻报道,那么这个模型在其他领域的表现可能会相对较差。但如果数据集包含了例如科技、医学、法律和社交媒体等不同类型的文本,那么训练出来的模型将具备更广泛的知识和理解能力。此外,用于垂直领域的专用大模型更需要大量行业专属数据进行微调,才能解决更为专业复杂的行业问题。AI数据相关市场快速增长。据艾瑞统计与预测,2022年我国AI基础数据服务市场规模(含数据采集与标注)为31亿元。受各类AI应用对于图像、语音和文本数据集及定制化数据服务的需求上涨影响,2027年相应规模可达到79亿元,2022-2027年的相关CAGR达20.6%。2022年中国面向人工智能的数据治理市场规模约为45亿元。受数据平台服务、数据治理服务和AI应用建设的需求推动影响,面向人工智能的数据治理市场规模将持续上升,2027年达121亿元,2022-2027年的相关CAGR为21.7%。
(左)2020-2027年中国AI基础数据服务市场规模
(右)2020-2027年中国数据治理与面向AI的数据治理市场规模
北京、深圳在人工智能产业政策中针对性提及数据要素,有望推动产业发展。2023年5月,《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》提出,“建立多模态公共数据集,打造高质量中文语料数据”。同月,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》发布,针对“提升高质量数据要素供给能力”提出三大举措:(1)归集高质量基础训练数据集;(2)打造“国家数据基础制度先行先试示范区”,谋划国家级数据训练基地;(3)搭建数据集精细化标注众包服务平台。