本文来自IT168网站,作者/陶然。
随着数据在复杂性和数量上的增长,企业需要更好的方法来管理数据,这就是数据网格和数据结构的用武之地,这是两个比较流行的下一代数据管理概念,两者各有所长,但又互为补充。
我们将分解这两个概念,并研究如何使用这些解决方案来利用企业数据进行更好的决策。
什么是数据网格?
2019年,Zhamak Dehghani将数据网格定义为一个基于四个核心原则的数据管理概念,即,域所有权;作为产品的数据;自助数据平台;联合计算治理。
传统的数据管理模型侧重于信息的中央存储库,而数据网格概念采用了更分布式的方法。在此模型下,每个团队或部门负责管理自己的数据,并创建所有人都可以使用的联邦系统。
这种方法有几个优点:首先,它有助于确保数据是准确和新鲜,因为每个团队都负责维护自己的记录,它促进了透明度和协作,因为团队可以看到组织内其他人是如何使用数据的。其次,数据网格消除了对集中式IT基础设施的需求,为组织提供了更灵活和可伸缩的数据管理方式。
数据网格概念的价值还在于,它能够为组织的数据创建单一的真实源,同时为单个业务单元提供更大的控制。这有助于防止数据竖井,并使治理和管理组织的整体数据资产变得更容易。
此外,自助数据平台原则使业务用户能够在需要时更容易地访问所需的数据,这有助于改进决策,提高操作效率。最终,数据网格概念可以为不断增长的数据资产的组织提供显著的好处。
什么是数据结构?
数据结构是作为数据和连接过程的集成层的设计概念。Gartner较早的创造了这个术语,它已经成为思考数据管理的一种流行方式。
数据结构利用对已知、标识和推断的元数据资源的持续分析,这使得跨多个平台、数据类型、位置共享和重用数据成为可能。
数据结构利用人工和自动化功能来获得对现有数据的访问权,或在适当的情况下帮助进行数据整合,它通过识别和连接来自不同来源的数据,找到不同应用程序数据点之间不同的、与业务相关的连接。这种洞察力允许重新设计决策,通过快速访问和理解产生比传统数据管理技术更大的价值。
在典型的设置中,数据结构从数据管道的被动观察者开始,随着时间的推移,它开始使用人工智能和机器学习功能来提出更有效的数据处理方法。
数据结构不是数据管道、数据仓库或数据湖,而是建立在这些概念之上的数据管理的下一个逻辑步骤。
数据网格vs数据结构
数据网格和数据结构都是管理数据的方法,强调治理、发现和重用。然而,两者之间有一些关键的区别。
数据网格是数据产品的网络,每个数据产品都有一个定义良好的所有者,并且可以通过API(应用程序编程接口)访问。相比之下,数据结构是一个集中式平台,它支持创建数据产品,并为消费者提供单一访问点。
然而,正如开头所提到的,这两个概念是互补的,可以共存。例如,可以使用数据结构对资产进行编目,将其转换为产品,并遵循联邦治理策略,这将使数据消费者能够以多种方式使用数据产品,例如将数据产品发布到目录、搜索它们以及通过API查询或可视化数据产品信息。
数据结构元数据还可以用于发现数据产品生产过程中的模式,或者在监视数据产品时发现模式,然后将这些活动自动化。
为什么增强数据很重要?
随着企业数据量的不断增长,增强数据管理变得越来越重要。
增强的数据管理帮助组织更好地管理其数据资产,提高数据质量并减少手工干预的需要。此外,增强数据管理可以提供组织数据的统一视图、自动将元数据管理和主数据模型的生成。
在数据高速增长的时代,增强数据管理为满足需求提供了急需的解决方案。
利用这些数据管理概念可以帮助改进决策、提高操作效率并防止数据竖井。所有这些因素在当今的商业环境中都很重要,可以帮助组织获得竞争优势。