本文来自向云而生。
最近艾瑞等一些咨询机构先后发布了关于数据中台和数据治理的一些研报,结合最近跟一部分客户讨论的关于数据域后续发展的一些心得,今天来谈谈数据中台与数据治理的后续发展趋势和思路。
01市场在扩大,但是趋于理智,价值导向更明显
数据中台是中国本土诞生的一个词,从技术的角度来讲,我个人认为是对数据架构和数据平台的一个巨大贡献,快速拉进了高不可攀的数据技术与实际应用的距离,让数据在企业落地变得触手可及。
数据中台显然是近几年的一个行业热点,几乎所有有能力的客户,都会场合套用数据中台的概念来启动数据域建设或者改造,试图打破信息壁垒和数据烟囱,实现数据资产的整合。在数据要素配置的政策加持下,数据中台市场规模迅速扩大。
最近看了一些数据,数据中台增长率从2019年的120%,降到了2022年的30%,再到预测的2023年的24%,虽然不同机构对这一数字的解读用了不同词儿,有的叫增长趋于平稳,有的叫增速骤降,怎么说都对,但其中的共识就是客户开始变得比以前理智,不再纠结于过分追新求快,开始关注数据中台的价值导向。客户也开始更理智的看待数据要素,从一开始像囤积土地资源一样囤积数据,开始更多关注数据本身能够带来的价值。同时,也开始更加关注基于数据中台的数据治理应该如何开展。
02数据中台与数据治理本就你中有我,我中有你
数据中台的出现,在客观上对传统数据治理的推进造成了一定的影响,但是数据中台从本质上跟数据治理是相辅相成额关系。首先,数据中台实现了数据资源的聚合和融通,承载了业务条线对数据的需求和期望,是企业切入数据域建设的重要途径和抓手。企业通过数据中台的建设和落地,比较容易在数据层面“找问题”、“强弱项”,有助于数据治理意识和体系的形成。数据中台要想持续发挥价值,需要受数据治理体系的管理和约束,数据治理的持续运行有助于进一步加强和推动数据服务能力建设。
虽然在技术架构上,数据治理始终都是数据中台的重要组成部分,但是数据治理的成效始终都没有发挥出来。究其原因,问题应该出在管理和组织上。
03除了工具和平台,我们应该怎么理解数据治理
1、统一思想
数据治理应该成为企业数字化转型战略的一部分,针对不同情况和处境,尽快达成一致,形成统一的治理思想和战略,并纳入数字化战略统一推进。处在数字化转型初期的,应该采取管理先行制度为王的策略;处在数字化转型中期的,应该尽快建立数据治理平台能力,建立全链路数据跟踪监测体系和数据质量基线,快速发现问题,避免一乱一治的问题。
2、组织至上
数据治理始终都是一个以人为本的领域,数据治理的核心是人,不是系统。这个概念可能很多人不能接受,但事实就是这样。平台和工具只能代替人去处理一些重复性劳动,但是数据意识的养成、数据标准的建立、数据质量体系的完善都需要靠人去推动。所以,成立专门的组织就很重要,建立面向数据治理、数据运维和数据运营的专门团队,确定团队和组织的地位和责权利,就变成了当务之急。有时候组织的范围不仅仅是本单位内部,还会包括你的应用开发商、服务商和供应商。
3、模式适配
通常来讲,数据治理的推进模式有集中式、联邦式和分布式。模式没有好与坏的区别,适合的就是最好的。比如,对于管理能效高,自上而下推动力强的企业,显然集中式是最佳的选择。对于存在多源异构数据的企业,数据资源丰富、需要调动不同业务条线的数据意识和积极性,联邦制可能更适合。
4、建章立制
在以前的数据治理活动中,很多大程度上规章制度是缺位的。数据治理往往以运动的方式出现,“醒时同交欢,醉后各分散”,雷声大雨点小,运动过后无人问津,一切都回归原点。数据治理的建章立制的过程,也是“立法”的过程,需要明确数据的管理职责、管理流程,形成常态化治理机制,实现数据的“长治久安“。
04数据治理的发展趋势
从目前来看,数据治理的发展趋势,有很多方面已经很明确了,比如数据治理与AI的结合、数据安全与数据治理的深度融合、数据价值呈现成为数据治理的关注焦点。以上思路毋庸多言,我想重点分享一下下面的观点:
1、业务牵引的精细化治理,成为趋势
传统大水漫灌式的数据治理方式,正在被业务场景聚焦的精细化方式取代,开始尝试重点突破关键和核心业务场景,在局部和小范围进行推进,取得成效以后再进行推广。同时,不同行业和领域对数据治理能力的需求迫切程度也不一样,比如金融数据治理重点关注数据标准化,多源异构数据较多和离线实时数据并行的场景更关注数据质量监测,需要按照结合行业属性和业务特点进行有针对性的精细化治理,杜绝头疼医头脚疼医脚。
2、全链路数据跟踪监测体系和数据质量基线需要持续关注
说起数据质量监测,这正成为数据治理取得价值突破的重要抓手。面对大量多源异构数据和不同业务场景下,离线和实施数据并存的情况,全链路数据跟踪监测体系显得尤为重要,需要从数据源、数据模型到数据应用的全链路监控,监控数据调取、数据运行状态和数据质量事件。同时,我们需要及时构建数据质量运维基线,根据任务要求建立合理的基线预警,对数据质量问题早发现早处置。关注持续的任务关联性和影响性分析(有点像业务连续性里面的业务影响性分析),基于全链路的数据血缘,梳理上下数据依赖关系,及时通报及时修复。
3、数据治理和数据平台一体化建设
数据治理体系和数据平台建设,往往没办法依照“发现问题、分析问题、解决问题”的路径去落地,会受很多问题的制约和限制。解决数据问题,通常有两个思路:
一是一是从平台架构、技术方面思考解决方法。这个方向就是数据中台,数据中台中的“一切业务数据化、一切数据业务化”的思想,体现出来的数据资产化、元数据管理等等跟数据治理思想一致。
二是通过数据治理解决问题。在这个方向上,数据治理从数据资源目录梳理、数据标准建立开始,逐步推动数据资源服务和数据能力服务两大板块。
因此,数据平台建设与数据治理正在深度融合,按照一体化建设的思路向纵深发展。
4、DataOps数据开发治理一体化
近几年,DataOps数据开发治理一体化在业界非常受欢迎。部分数字化转型较早、数据资源条件优厚的企业,借鉴传统DevOps的理念,将原本分散的数据治理、管理、开发和应用等环节打通,形成一个无缝衔接的大闭环,去破解企业在数据应用中的难题。
究竟什么是DataOps,在现在阶段不太好定义。维基百科对DataOps的定义是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期,简而言之,就是提供一整套工具和方法论,让数据应用的开发和管理更加高效。显然,这个定义有点笼统又不明确。
我们一般理解,DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps在数据开发运营体系化方面,可以作为数据中台建设必须参考的一个方法论。DataOps强调的是数据应用的开发和运维效率,就像DevOps一样,DataOps希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。
如果说数据中台是数据战略层面的,我理解DataOps就是战术层面的。本来还想说说Data Fabric,又是一个不太好翻译的词,Data Fabric成为跨平台数据整合的新方式,极有可能是颠覆式的方式。