本文来自架构师修炼之道。
“数据编织”一词高频出现,似乎已经进入落地阶段,本文介绍了数据编织产生的背景及其定义,详细分析了数据编织与数据中台、数据治理、DataOps的关系,以及未来数据编织发展的方向和需要关注的问题。
最近在日常的工作和跟客户的交流中,频繁谈及“数据编织”这个词,我开始关注数据编织是源于对主动式数据治理和数据编排的研究,从现在的趋势来看,数据编织显然已经进入落地阶段。数据编织正在从一个概念、一个理念向一线生产场景演进,正在加速产品化和实战化。
注:这篇文章大部分内容来自我之前的原创,请参考:你知道数据治理,你听过数据编织吗?
01、数据编织产生的背景
首先我们来看一下在数据领域正在发生着哪些趋势性的变化。
1、数据成为核心生产要素,成为数字化转型不可或缺的重要元素。随着政策的加持,大家对数据要素重要性的认知也越来越充分,企业数据总量不断增加,但是数据孤岛的情况没从根本上得以解决,反而有变本加厉的趋势。
2、数据结构从结构化向多元化方向进一步演进。数据的内涵和外延都进一步发展,从单纯的结构化数据为主,向包含结构化、半结构化和非结构化数据在内的混合模式转移,数据采集、使用、管理的难度进一步加大。
3、从单纯关注数据应用到关注数据能力体系化建设。数据域的建设正在从单纯的以数据应用为核心,向体系化的数据服务能力建设转型,开始意识到数据管理和运营的不足,开始尝试数据服务能力平台化和体系化,开始探索改变数据治理“一乱一治”的被动局面。
4、数据运行环境呈现跨平台和融合化的趋势。随着企业上云开展和多云架构的广泛采纳,数据运行环境正在加速融入统一的云化基础设施中,数据采集、存储和分析正在从离线转向实时,对目前异构、泛在、智能的算力平台提出了更高的要求。
以上这些趋势性的变化,都是在实际生产中遇到的数据管理的难题和痛点,企业需要一种新的数据架构理念来应对在数据资产化进程中产生的复杂性、分布式、多元化等因素,于是数据编织出现了。
02、数据编织(Data Fabric)
首先看看业界是如何定义数据编织的,Gartner将数据编织定义为“包含数据和连接的集成层,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的的数据交付”。
Gartner认为数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性,的特点,使得人们可以随时随地使用任何数据。下图是Gartner给出的数据编织的典型结构:
数据源层:数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统、MES系统、PLM系统、CAPP系统等。还可以连接到非结构化数据源,例如,支持PDF和屏幕截图等文件提交系统,支持物联网传感器的接入等。数据编织还可以从公共可用数据渠道提取数据,比如社交媒体等。
数据目录层:与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习(ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。
知识图谱层:数据编织必须构建和管理知识图谱。知识图谱的语义层使用AI/ML算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。
数据集成层:数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过API支持与内部和外部利益相关者共享数据。
数据消费层:数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据工程师等,既能够面向专业的IT用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。
数据编织使用基于网络的架构而不是点对点的连接来处理数据,实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据结构。
结论:数据编织是一种数据架构理念(而非一组特定的工具),其通过提供一种统一的方法来管理异构数据工具链,其能够将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。
03、数据中台
在主流的数据中台概念中,也强调支持各种数据源(结构化的/半结构化的/非结构化的),提供数据目录、数据标签、数据分析等服务,提供数据资产的动态化管理,支持为不同数据用户提供数据服务,解决企业的数据孤岛,让数据用起来。这些特点都与数据编织很相似,只不过数据编织更强调人工智能和知识图谱的应用。
数据中台并不是全新的技术和产品,更多是由一些技术组件组合而形成的一个综合性的数据应用解决方案,例如:基于数据湖的数据存储服务、基于各种数据管理组件的数据治理服务,基于大数据平台的数据计算和处理服务,以及提供面向应用的数据标签、数据目录、数据分析服务等。
结论:数据中台是一个综合性的数据应用解决方案,指的是将组织内各个业务部门的数据整合到一个统一的平台中,以提供数据共享和协作。数据中台旨在构建一个数据驱动的组织,通过整合数据资源,实现数据的可视化、分析和应用。
04、数据治理
数据治理如今是一个很常见的概念,按照DAMA的定义,数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。大家都知道,数据治理是对数据管理的管理,它是基于内部数据标准、策略和规则,管理企业数据的可用性、完整性和安全性,从而将数据资源转化为数据资产。
数据治理涵盖了数据管理的各种主题,例如:数据战略、数据架构、数据建模、数据存储和操作等。
从目前来看,数据治理的发展趋势,有很多方面已经很明确了,比如数据治理与AI的结合、数据安全与数据治理的深度融合、数据价值呈现成为数据治理的关注焦点。
结论:数据治理是一套策略、流程和技术,用于确保数据的合规性、质量和安全性。数据治理涉及数据的定义、分类、标准化、数据主人的定义和责任分配、数据访问控制等方面。数据治理的目标是确保数据可信度和可用性,促进数据驱动决策和业务价值的实现。
05、DataOps
DataOps的目标是为了使数据资源和数据应用的开发变得更加有序和可控,实现组件和能力重用以及过程自动化,实现面向用户的自助式数据分析。DataOps强调的是数据应用的开发和运维效率,就像DevOps一样,DataOps希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。
结论:DataOps是一种工程方法论和一套实践方法,旨在快速、可靠、可重复、持续地交付生产就绪数据以及运营就绪分析和数据科学模型。DataOps通过支持数据版本控制、数据转换、数据血缘和分析模型的工程学科来增强和推进数据治理。DataOps提供敏态数据开发支撑,优化数据生产者和数据消费者协作效率。
06、各种概念对比
1、数据编织VS数据中台
数据中台是由相关技术组件组成的一个综合性的解决方案,重点是提供面向应用的数据标签、数据目录、数据分析、模型算法服务等各类数据服务。而数据编织更侧重实现异构融合多样的数据资产服务,强调自动化的集成和智能数据编排。
数据中台是一个“让数据用起来”的方法论,不仅包含数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和流程、运营机制和考核办法等。而数据编织一开始就强调新技术的应用,例如:机器学习、人工智能、知识图谱等,且构建和管理知识图谱是其核心支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构),数据编织的技术色彩更浓一些。
2、数据编织VS数据集成
数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。
数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴。
3、数据编织VS数据湖
数据湖只是数据编织的异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),数据编织将应用程序与数据湖(或者数据仓库等)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。
4、数据编织VS数据治理
在传统的数据治理体系中是没有包含数据编织的,但数据编织是一种数据管理的全新架构,是自动化、智能化数据治理的一个理想解决方案,从数据架构层面增强了企业数据管理的能力,是传统数据治理的重要补充。
5、数据编织VS DataOps
DataOps是将数据编织真正落地一个重要的推动者。DataOps的数据流程模型、工具和数据洞察与用户数据需求之间存在密切的联系,该模型与数据编织的架构具有共生关系,DataOps数据流程模型和思维模式是数据编织落地的核心关键。
总的来说,这些概念之间存在一定的关联和重叠。数据编织可以看作是数据中台和DataOps的结合,它关注数据整合和数据流程的灵活性和效率。数据治理则是数据编织和数据中台的基础,通过确保数据质量和合规性,为数据编织和数据中台提供可信的基础。DataOps可以在数据编织和数据中台中发挥重要作用,通过自动化和持续交付的方式加速数据处理和数据产品的交付。因此,这些概念通常是相互关联和相互支持的,共同构建一个数据驱动的组织。
07、数据编织将如何发展
Data Fabric是近两年在国外备受追捧的概念,而在国内刚刚起步。之前IT技术从概念到落地大概需要10年左右的时间,近些年这个时间已经大大缩短。可以预见的是,Data Fabric在国内也将被越来越多的企业用于解决数据资产多样性、分散性、规模化和复杂性不断增加以及数据使用人群和应用场景爆发式增长带来的一系列问题。
这个过程中,依然有一些可以预见的问题,需要我们去重视。
1、回归数据资源化和服务化的本源
数据编织在落地过程中,还是要回归数据资产化和服务化这一初衷,不要把多元数据的动态管理演变成了打造另外一个数据湖。除了资产化和服务化,更要关注平台化,要注意数据集成,动态的数据集成。强调组件之间的互操作性,通过API和SDK实现集成层、无缝数据传输以及自动数据洞察的获取。
2、依托统一的异构泛在的智能基础设施
数据编织千万不能走烟囱式IT建设的老路,必须面向企业复杂的数据环境提供集成整合能力,克服异构泛在的云化基础设施带来的挑战。依托数据编织,根据不断变化的技术和业务需求,自由地从一系列混合IT基础架构资源中运行关键的数据业务。
3、关注与物联网和边缘计算的深度融合
边缘计算专为支持物联网实施而构建,它是将与数据相关的关键任务从集中式应用程序转移到一个单独的边缘层,该边缘层是分布式的,但与数据编织紧密相连。通过使数据编织适配边缘计算,企业可以从其物联网设备中获得更多数据价值。
数据编织的初衷是实现泛在的数据资产化和自动编排,这其中物联网和端侧数据是必须要充分考虑的重要场景,从目前趋势来看,部分关键数据任务一定会从集中式的算力中心下沉到边缘计算节点。数据编织必须实现与边缘计算的深度融合,以便实现更范围的数据资产化,获取更大的数据价值。
写在最后的话
从国内的行业现状来看,国内还没有真正意义上的成熟的Data Fabric。究其原因,是跟国内厂商在数据领域的布局有关,国内数据厂商大多分布在数据库和数据分析等领域,在数据整合和治理领域相对薄弱。在国外的实践来看,Data Fabric比较活跃的是从事数据整合和数据虚拟化的公司。
总的来说,Data Fabric作为一个新兴的概念,还需进一步的成熟和完善,但是窗口期不会太久。