本文来自微信公众号“twt企业IT社区”,作者/郑金辉。
最近在日常的工作和跟客户的交流中,频繁谈及“数据编织”这个词,我开始关注数据编织是源于对主动式数据治理和数据编排的研究,从现在的趋势来看,数据编织显然已经进入落地阶段。数据编织正在从一个概念、一个理念向一线生产场景演进,正在加速产品化和实战化。其实数据编织不是一个特别新的词,Gartner在2022年的重要战略技术趋势报告里面,第三次把数据编织列为十大技术趋势之一。
一、数据编织产生的背景
首先我们来看一下在数据领域正在发生着哪些趋势性的变化。
1、数据成为核心生产要素,成为数字化转型不可或缺的重要元素。随着政策的加持,大家对数据要素重要性的认知也越来越充分,企业数据总量不断增加,但是数据孤岛的情况没从根本上得以解决,反而有变本加厉的趋势。
2、数据结构从结构化向多元化方向进一步演进。数据的内涵和外延都进一步发展,从单纯的结构化数据为主,向包含结构化、半结构化和非结构化数据在内的混合模式转移,数据采集、使用、管理的难度进一步加大。
3、从单纯关注数据应用到关注数据能力体系化建设。数据域的建设正在从单纯的以数据应用为核心,向体系化的数据服务能力建设转型,开始意识到数据管理和运营的不足,开始尝试数据服务能力平台化和体系化,开始探索改变数据治理“一乱一治”的被动局面。
4、数据运行环境呈现跨平台和融合化的趋势。随着企业上云开展和多云架构的广泛采纳,数据运行环境正在加速融入统一的云化基础设施中,数据采集、存储和分析正在从离线转向实时,对目前异构、泛在、智能的算力平台提出了更高的要求。
以上这些趋势性的变化,都是在实际生产中遇到的数据管理的难题和痛点,企业需要一种新的数据架构理念来应对在数据资产化进程中产生的复杂性、分布式、多元化等因素,于是数据编织出现了。
二、什么是数据编织
对于数据编织的定义,业内尚且没有统一完整的表达。
Gartner给数据编织(Data Fabric)的定义如下:Data Fabric is a design concept that serves as an integrated layer of data and connecting processes.数据编织是一个设计概念,表示数据和连接进程的集成层。
从以上的定义可以看出,Gartner首先认为数据编织不是一种技术,而是一种设计理念或者叫一种架构理念,然后认为数据编织是一种跨平台的数据整合手段,同时具备数据和连接两个核心概念,数据既是编织的对象又是业务的表征,连接既是实体的数据获取工具也是屏蔽复杂性的手段。
整体来看,Data Fabric是利用AI、机器学习和数据科学等技术手段,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。业内有一句通俗的解读:现在的数据层的架构设计还主要是“人找数据”,而Data Fabric设计核心是“数据找人”,在合适的时间、将合适的数据推送给需要的人。是不是有点豁然开朗的感觉。
Gartner认为,数据编织的核心是充当数据和连接的集成层。数据编织利用对现有、可发现(未知)的元数据资产的持续和动态分析,以支持异构、泛在、智能的多云化的基础设施和数据服务全生命周期的持续打造。Gartner给出的数据编织的典型结构,自下而上分为5个层次,分别是:
数据源层:数据编织可以连接各种数据源。这些资源包括存在于企业内部的各类数据源,同时也可以接入公共可用的数据资源。同时,除了结构化数据以外,还包括相关的非结构化数据。但是要注意,这提到的是连接和整合,不是采集和提取。
数据目录层:与传统人工编目不同,数据编织强调采用新技术(语义分析、知识图谱、主动元数据管理和嵌入式机器学习(ML)等等)自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。
知识图谱层:数据编织必须构建和管理知识图谱。知识图谱的语义层使用AI/ML算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。
数据集成层:集成和整合是数据编织的核心,数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过API支持与内部和外部利益相关者共享数据。
数据消费层:数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
数据编织本质上是一个统一的架构理念,通过数据源的自动检测和元数据的主动发现,增强数据与业务的关联和实时性;通过数据知识谱图的构建,加强数据价值呈现;通过数据自动编排和动态集成,形成动态可持续的数据服务。除了架构理念之外,还提供了一套新的数据管理框架,使用户能够轻松访问和共享不同的数据资源。
Gartner认为,通过实施Data Fabric,企业不仅可以减少一半以上人力驱动的数据管理任务、70%的数据管理工作,让数据质量及运营成本降低65%;还能以8倍的速度、不到一半的成本,获取数据和洞察——基于Data Fabric产生的数据洞察,可以使企业平均每年增长30%以上。
以上成效数据看看就行,别当真!
三、数据编织与数据中台、数据治理、DataOps的关系
通过上述的解读,大家会发现数据编织的概念好像跟之前比较流行的数据中台和数据治理有着密切关联,甚至有点分不清。下面尝试做一些分析,但是具体细节仍然需要在一线的实践中进一步明确。
1、数据编织与数据中台
明确的说,数据编织和数据中台不是一个概念,数据编织也不是数据中台的高级版。
首先,数据中台跟数据编织一样,不是一个产品,也不是一种新技术,而是为了达成“让数据用起来”这一目标,由相关技术组件组成的一个综合性的解决方案,重点是提供面向应用的数据标签、数据目录、数据分析、模型算法服务等各类数据服务。而数据编织更侧重实现异构融合多样的数据资产服务,强调自动化的集成和智能数据编排。
第二,数据中台是一个“让数据用起来”的方法论,不仅包含数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和流程、运营机制和考核办法等。而数据编织一开始就强调新技术的应用,例如:机器学习、人工智能、知识图谱的等,且构建和管理知识图谱是其核心支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构),数据编织的技术色彩更浓一些。
数据中台和数据编织,是不同的技术阵营营造的出来的概念,没有太多可比性。如果非要类比,倒是可以把数据编织作为数据中台的一部分。不过,恐怕Gartner和IBM们不会答应。
2、数据编织与数据治理
狭义的数据治理重点是对数据质量的管理,广义的数据治理是数据管理的一整套规则和机制,核心是让数据有序和可管。数据治理是基于内部数据标准、策略和规则,管理企业数据的可用性、完整性和安全性,从而将数据转化为企业资产。
传统的数据治理在实际落地中,往往会陷入一乱一治的怪圈,容易形成被动的数据管理。从目前来看,数据治理的发展趋势,有很多方面已经很明确了,比如数据治理与AI的结合、数据安全与数据治理的深度融合、数据价值呈现成为数据治理的关注焦点。
在传统的数据治理体系中是没有包含数据编织的,但数据编织(Data Fabric)是一种数据管理的全新架构,是自动化、智能化数据治理的一个理想解决方案,从数据架构层面增强了企业数据管理的能力,是传统数据治理的重要补充。
3、数据编织与DataOps
近几年,DataOps数据开发治理一体化在业界非常受欢迎。部分数字化转型较早、数据资源条件优厚的企业,借鉴传统DevOps的理念,将原本分散的数据治理、管理、开发和应用等环节打通,形成一个无缝衔接的大闭环,去破解企业在数据应用中的难题。
究竟什么是DataOps,在现在阶段不太好定义。维基百科对DataOps的定义是一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期,简而言之,就是提供一整套工具和方法论,让数据应用的开发和管理更加高效。显然,这个定义有点笼统又不明确。
我们一般理解,DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps在数据开发运营体系化方面,可以作为数据中台建设必须参考的一个方法论。DataOps强调的是数据应用的开发和运维效率,就像DevOps一样,DataOps希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。
那Data Fabric和DataOps有什么区别和联系呢?
Data Fabric和DataOps肯定不是相同的概念,但DataOps是将Data Fabric真正落地一个重要的推动者。DataOps的数据流程模型、工具和数据洞察与用户数据需求之间存在密切的联系,该模型与数据编织的架构具有共生关系,DataOps数据流程模型和思维模式是数据编织落地的核心关键。
四、数据编织将如何发展
Data Fabric是近两年在国外备受追捧的概念,而在国内刚刚起步。之前IT技术从概念到落地大概需要10年左右的时间,近些年这个时间已经大大缩短。可以预见的是,Data Fabric在国内也将被越来越多的企业用于解决数据资产多样性、分散性、规模化和复杂性不断增加以及数据使用人群和应用场景爆发式增长带来的一系列问题。
这个过程中,依然有一些可以预见的问题,需要我们去重视。
1、回归数据资源化和服务化的本源
数据编织在落地过程中,还是要回归数据资产化和服务化这一初衷,不要把多元数据的动态管理演变成了打造另外一个数据湖。除了资产化和服务化,更要关注平台化,要注意数据集成,动态的数据集成。强调组件之间的互操作性,通过API和SDK实现集成层、无缝数据传输以及自动数据洞察的获取。
2、依托统一的异构泛在的智能基础设施
数据编织千万不能走烟囱式IT建设的老路,必须面向企业复杂的数据环境提供集成整合能力,克服异构泛在的云化基础设施带来的挑战。依托数据编织,根据不断变化的技术和业务需求,自由地从一系列混合IT基础架构资源中运行关键的数据业务。
3、关注与物联网和边缘计算的深度融合
边缘计算专为支持物联网实施而构建,它是将与数据相关的关键任务从集中式应用程序转移到一个单独的边缘层,该边缘层是分布式的,但与数据编织紧密相连。通过使数据编织适配边缘计算,企业可以从其物联网设备中获得更多数据价值。
数据编织的初衷是实现泛在的数据资产化和自动编排,这其中物联网和端侧数据是必须要充分考虑的重要场景,从目前趋势来看,部分关键数据任务一定会从集中式的算力中心下沉到边缘计算节点。数据编织必须实现与边缘计算的深度融合,以便实现更范围的数据资产化,获取更大的数据价值。
从国内的行业现状来看,国内还没有真正意义上的成熟的Data Fabric。究其原因,是跟国内厂商在数据领域的布局有关,国内数据厂商大多分布在数据库和数据分析等领域,在数据整合和治理领域相对薄弱。在国外的实践来看,Data Fabric比较活跃的是从事数据整合和数据虚拟化的公司。
总的来说,Data Fabric作为一个新兴的概念,还需进一步的成熟和完善,但是窗口期不会太久。
原题:《数据领域的新宠,数据编织》,作者个人公众号:向云而生