本文来自微信公众号“数据驱动智能”,作者/晓晓。
数据是所有行业组织的重要资产。有效管理这些数据需要这些数据可靠、一致和可互操作。这就是企业数据模型(“EDM”)发挥价值的地方。组织有时会发现自己处于一个十字路口:是采用现有的EDM(旨在标准化一个或所有行业的数据实践),还是构建适合其独特业务需求的自定义模型。这些路径之间的选择可能会影响组织的数据管理能力及其长期运营效率和竞争优势。
本文深入探讨企业数据模型的本质,探讨各种特定于行业的模型,并概述了一个框架来帮助企业决定是采用现有模型还是构建自己的模型,并辅以真实案例研究来说明如何决策。
一什么是企业数据模型
企业数据模型本质上是组织数据的架构蓝图。将其视为定义如何在整个组织中收集、存储、管理和使用不同类型的数据的总体规划。该模型不仅包括数据结构的技术方面(例如数据库、数据格式和关系),还封装了确保数据质量、一致性和安全性的治理、策略和标准。
EDM有多种用途。它提供了组织信息资产的统一、连贯的视图,促进更好的数据集成、访问和分析。通过建立通用的数据语言和框架,它使不同部门和业务单位能够更有效地共享和利用数据,打破孤岛并营造更加协作和知情的业务环境。明确定义的EDM可以为高级分析和数据驱动策略奠定坚实的基础,从而支持遵守法规要求、增强决策能力并推动创新。
构建和维护EDM并不容易。我研究了世界上100多家公司的数据管理实践,没有一次出现过企业范围内、功能齐全的EDM。每个组织都有不完善的方面。
二各种行业数据模型
特定于行业的数据模型提供了针对特定行业的独特需求和挑战量身定制的标准化框架。相应的模型旨在封装行业内的最佳实践、监管要求和通用数据元素,促进互操作性、合规性和效率。
以下是一些值得注意的例子:
金融行业业务本体(FIBO):FIBO专为金融行业开发,为金融数据提供通用语言和标准,增强银行、投资公司和监管机构之间的沟通、分析和报告。它旨在提高数据质量和一致性,支持风险管理和合规流程。
健康七级国际(HL7)标准:在医疗保健领域,HL7标准指定了不同系统(例如电子健康记录(EHR))之间信息交换的格式和组织,确保患者数据准确、可访问且安全。这支持更好的患者护理、研究和健康管理。
TM论坛信息框架(SID):对于电信行业,SID提供了一个用于管理与服务、客户和网络运营相关的复杂数据的综合模型。它帮助电信公司简化流程、更快地推出新服务并提高客户满意度。
零售行业数据模型(RIDM):该模型通过提供库存管理、销售跟踪、客户洞察和供应商关系框架来满足零售行业的需求。它使零售商能够更好地了解客户、优化供应链并增强战略决策。例如,Teradata提供了特定的零售数据模型。
特定行业的模型解决了共同的挑战,提高了效率,并支持各自领域内的战略目标。特别是,它们可以帮助行业内的公司更轻松地交换数据,因为数据的结构和解释类似。
三通用数据模型
还有通用数据模型的示例,无论身处哪个行业,都可以(部分)采用所提出的框架和数据元素。
Microsoft的Windows通用数据模型(“CDM”)就是一个很好的例子。它是一种标准化的数据架构,旨在简化各种应用程序之间的数据集成和分析,尤其是Power BI、Dynamics 365和Azure等Microsoft应用程序。正如可以服务或创建EDM的东西所期望的那样,它提供了统一的数据语言来推动跨数据生态系统增强的互操作性和解释。
四模型选择的驱动因素和标准
决定是采用现有的行业数据模型还是构建自定义模型会受到多种因素的影响。以下是需要考虑的主要因素:
业务特殊性和复杂性:组织业务流程、数据需求和挑战的独特性可能决定了对自定义模型的需求。如果现有的行业模型不能充分满足这些特定要求,则可能需要定制解决方案。
资源可用性:决策通常取决于组织获得财务、技术和人力资源的能力。采用现有模型可以节省时间和资源,而构建自定义模型需要大量投资,但可以提供量身定制的结果。
战略一致性:选择应与组织的长期战略目标保持一致,例如市场差异化、创新或可扩展性。自定义模型可以通过以标准模型无法适应的独特方式利用数据来提供竞争优势。或者,相反,致力于数据建模标准可能会让公司更好地与行业合作伙伴合作,这推动了许多金融公司在致力于开放银行标准时向前迈进。
监管合规性:对于受到严格数据管理和报告法规约束的行业,合规性要求可能需要采用以履行这些法律义务而闻名的行业标准模型。
集成和互操作性:与现有系统、数据源和外部合作伙伴集成的需求可能会影响决策。现有模型可能会提供与行业标准系统更好的互操作性,而自定义模型可以设计为与内部遗留系统无缝集成。
可扩展性和灵活性:规划增长或预期业务模型变化的组织需要考虑其数据模型的可扩展性和灵活性。自定义模型可能会提供更多的发展空间,但现有模型可能已经提供了必要的可扩展性。
通过评估这些驱动因素,组织可以选择最能支持其数据管理目标的路径,确保其企业数据模型为数据驱动的决策和战略增长奠定坚实的基础。
五决策框架:采用与构建
在采用现有企业数据模型还是构建自定义模型之间进行选择是一项战略决策,取决于几个关键考虑因素。这是指导此决策过程的定向方法,它非常接近上面介绍的因素:
评估业务需求和目标:首先澄清您对组织的独特业务需求、战略目标和数据挑战的理解。确定数据模型必须支持或可能受到影响的关键流程、数据流和用户需求。
评估行业标准:研究现有的行业数据模型,以确定它们是否符合您的业务需求。考虑这些模型如何很好地覆盖您所需的数据实体、关系和流程。有些行业拥有非常成熟的数据模型,有时甚至是开源的,而其他行业则没有。
分析资源限制:盘点您的可用资源,包括预算、时间和专业知识。构建自定义模型需要大量资源,因此请确保您拥有或可以获得必要的资源。
考虑法规遵从性:确定影响您的数据管理实践的任何法规要求。一些行业有严格的数据标准,可能需要采用特定于行业的模型。
确定集成需求:评估您当前的IT基础设施以及与外部合作伙伴或系统的任何必要集成。考虑现有模型是否提供更好的互操作性,或者是否需要定制解决方案来实现无缝集成。
规划可扩展性和灵活性:考虑您组织的增长计划以及业务模式未来潜在的变化。自定义模型可以提供更大的适应灵活性,而现有模型可以提供即时的可扩展性。
决定采用、定制或混合方法:根据分析,决定是采用现有模型、构建定制模型还是采用混合方法。混合模型结合了两者的元素,可以为许多组织提供平衡的解决方案。
六金融机构实施混合数据模型
下面是美国中西部的一个区域金融机构的案例。他们正在启动一个企业范围的数字化计划,将许多流程数字化。他们现有的流程和基础设施已经过时,因此他们决定部分建立一个所谓的“绿地”数字金融组织。Greenfield在这里指的是从头开始的项目,不需要考虑之前的工作。这就像在一片绿色的田野上建造房屋,之前没有建造过任何东西,因此得名。此类项目没有需要考虑的现有约束或遗留系统。
由于决定进行绿地转型,因此有很短的时间来考虑是否锚定在企业数据模型中,如果是,是否应该是自定义的、现成的还是混合的模型。决策过程遵循概述的方法:
评估业务需求和目标:公司的战略目标和IT目标并未表明是否使用预制数据模型,但他们当前的一组数据挑战指出了使用预先存在的数据模型的方向。他们在数据属性的一致性方面存在很多问题,因为过去他们使用的是自定义模型,但效果并不令人满意。但是,虽然转型主要是绿地,但仍然需要与现有核心银行系统进行连接和集成,因此在一些重要情况下,不可能仅仅使用新的模式。
评估行业标准:在该公司的行业中,有几个高质量、适合用途的数据模型。如前所述,FIBO可以帮助构建概念和逻辑数据属性。BIAN可以提供额外的标准来推动一致的业务流程和互操作性标准。鉴于该公司是一家Azure商店,Windows的通用数据模型是一个与行业无关的选择。所有这些都是适合用途且价格实惠的。
分析资源限制:资源限制确实很大。特别是,该公司没有任何真正的专家能够指导自定义数据模型的创建和采用,因此它看起来要么是一个预先存在的模型,要么根本没有模型。
考虑监管合规性:这家公司受到严格监管,但最相关的法规似乎并不强烈依赖于企业数据模型。
确定集成需求:确定了两种集成。首先,至少需要与现有核心财务系统进行集成,需要定制。但其次,未来将与金融市场上众多外部、即将到来的各方进行整合。这描绘了一幅复杂的图景:对于某些数据域,必须在考虑现有遗留堆栈的情况下对数据属性进行建模,但对于其他域,严格的偏好是与外部标准保持一致。
可扩展性和灵活性计划:该公司目前重点关注某一特定州,该州超过80%的收入来自该州。然而,它正在考虑向具有类似商业模式的邻国扩张。这表明对可扩展性有轻微的偏好,因此采用预先存在的数据模型。
决定采用、定制或混合方法:最终,设计原则是采用由FIBO和BIAN联合组成的预先存在的数据模型(它们在一定程度上重叠,但大部分是互补的),明确的指导原则是,只要有明确的理由,就可以接受例外情况,并得到架构设计审查委员会的批准。因此,该公司采用了混合模式。
七结论
采用、定制或混合方法的决定不仅仅是管理数据;还涉及数据管理。这是为了在以数据为中心的世界中支持企业的竞争力。结构良好的数据模型(符合行业标准,但又足够灵活以适应创新)的重要性怎么强调都不为过,特别是在过去几个月对生成式人工智能用例的需求推动下,对互操作性和集成的需求不断增长。