本文来自微信公众号“数据驱动智能”,作者/晓晓。
你有没有因为一条不良的信息而让你的整个工作日都不在线?您精心制作了一个充满“工作块”或“专注时间”的周历,但紧迫的问题一出现,您的议程就被抛在脑后了。数据工程师特别是与这种模式产生共鸣。业务用户不知道仪表板中某个字段背后的转换逻辑?找你。有人质疑为什么这个特定表的保留是30天,而不是45天?找你。或者,存在发现哪些团队正在使用特定表的治理需求。找你。您被迫在接下来的五个小时内调查丢失的信息,这些信息本应存在于某处的汇合页面中。通常情况下,找到这些答案通常是一项极其困难的任务,这正是您首先被找的原因,它甚至可能导致所需的代码更改。归根结底,数据生产者和数据消费者都会感到更多的不信任、更多的挫败感和更不情愿的合作。
为什么数据生产者和数据消费者之间存在这种脱节
如果您曾经担任过这两个角色中的任何一个,那么您很可能会亲身体验当前数据环境中数据生产者和数据消费者之间存在的明显不一致。
数据消费者无法准确地将他们的需求传达给数据生产者,导致不断变化的请求、后期制作更新,以及范围蔓延之大,以至于变成了范围雪崩。在功能完成结束时,最初的请求最初被正确传达并且提供的数据满足原始请求的可能性很小。
数据生产者很难理解归因于新请求和当前更新的商业价值。没有优先考虑最关键的业务流程,导致所有数据管道都被半维护。因为没有附加的投资回报率(ROI),所以不需要分配所有权。
很难正式量化缺乏一致性,但这种缺失的协作会导致各种下游后果。数据转手越多,数据就越不可信,尤其是在大型组织中,数据在到达最终目的地之前要经过几个团队。您实质上是在玩电话游戏,其中每个实体都有某种印记,可以改变其原始形式的数据,但具有目标数据输出。这种不一致的原因可以追溯到数据缺乏所有权和问责制。这种脱节并非源于数据从业者本身,而是我们所处的当前数据环境的结果。
虽然这听起来很凄凉,但当前的数据环境最近已将其重点转移到增加数据旅程中极其重要的组成部分,例如数据所有权、数据问责制和数据治理。最近的讨论主题之一围绕着数据产品,以及如何利用数据产品来加强问责制并鼓励数据生产者和数据消费者之间的协作。
数据产品是经过打包的精选数据集,旨在为下游消费者创造价值
精选——数据产品是需求驱动的,是为特定需求而构建的。
创造价值——数据产品通过以一种使数据更有用和更易于访问的方式呈现数据来创造价值。
数据产品是一种创建精选数据集的创新、现代方式,可以跨团队保存、发布、搜索和使用这些数据集以提供商业价值。数据产品旨在解决有针对性的业务问题,数据生产者和数据消费者都应该能够轻松访问数据产品。
关于这个定义有三个重要的特点:
为特定目的而创建的数据产品必须出于某种原因被请求。当手工选择数据产品来解决所需的需求时,数据产品就被策划了。通常数据产品首先是与最高投资回报率产生的输出相关联的。
为了促进数据自助化,数据产品通过可访问和自助服务产生价值。那些需要访问数据的人应该能够轻松实现访问。
为任何下游消费者打造的数据产品不仅为企业消费者增加价值。整个组织的工程师都可以使用数据产品来快速定位有关选择性数据输出的关键信息。
定义数据产品的质量
虽然数据可能是主角,但如果没有围绕它的所有其他元素,就无法讲述任何类型的故事。当我们讨论数据产品时,我们并不是专门讨论目标输出,而是指对最终数据输出有贡献的所有信息。
数据产品的三个组成部分是:
数据:数据产品的核心,可以采用表、视图或物化视图的形式
元数据:与数据关联的表定义,包括(但不限于)业务上下文、标签、沿袭信息、统计信息和所有权
访问模式:用户的预期访问计划,包括谁有权访问特定数据、如何访问该数据以及计算模式。
数据产品具有内在的共享性,这就是为什么可以利用它们来加强协作。虽然数据产品通常是根据一个团队的初始请求创建的,但鼓励在整个组织中广泛共享数据产品。这不仅有助于加强协作,还有助于加强团队之间和团队内部的问责制。现在使用的数据有五个不同的团队在查看它,而不是每个团队都被迫维护自己的数据副本。
要创建有效的数据产品,每个数据产品都必须充当一个独立的实体。在与特定数据产品交互时,应该拥有所有需要的信息。虽然这并不意味着每个数据产品都必须在其中包含相同的组件,但这确实意味着数据产品提供了足够的信息以通过允许其他人自助服务来增加价值。
数据产品需求
以对您的团队有意义的方式构建数据产品时,存在无限可能。然而,重要的是要牢记通过实施数据产品获得什么:增强整个组织的数据所有权意识、数据责任感和数据民主化。在开始您的数据产品之旅时,关注这四个必要条件将帮助您朝着这些目标迈进。
需求驱动。数据产品的设计和构建必须服务于明确的需求。为了构建数据产品而构建数据产品将导致半维护的数据集,并破坏了管理这种高质量信息的整个目的。以意图为基础的数据产品将自动推动数据生产者和数据消费者之间更好的协作。
可重用和可扩展。每个数据产品都应设计为促进跨多个用例的轻松重用,以提高数据民主化和数据问责制。在数据产品的整个设计过程中合并多个数据消费者以实现这一点应该很常见。虽然您可能拥有专为“一个”特定用例设计的产品,但它们应该是绝大多数。
可发现和可访问。数据产品的组织方式应有助于团队快速查找和访问所需信息,同时还具有共享能力以实现价值最大化。通过提供一种自助服务方法,数据产品正在为数据民主化和数据可访问性的组织级战略做出贡献。
承诺的所有者。为了避免常见的陷阱,数据产品必须在整个生命周期内得到妥善管理。从成立到退休,您需要一位接受过适当职责培训的正式所有者。首先,您必须有一套既定的公开承诺,所有所有者都应遵守这些承诺。接下来,应该对数据产品进行足够的记录,以便所有权之间的交接不会导致缺乏问责制。
我们为什么需要数据产品:缩小运营和分析之间的差距
在Zhamak Dehghani的原始数据网格帖子和她的书中,数据网格的一个关键方面是缩小运营数据和分析数据之间的差距。运营数据是支持运营数据平台的技术和人员的结合。同时,分析数据是支持分析数据平台的技术和人员的结合。
在Zhamak的书中,她指出,从数据仓库方法过渡到数据网格方法的组织将涉及删除数据仓库层,并让域负责来自运营和分析的数据。
另一种思考这两个平面的方式让我告诉每个人都很懊恼,我长期以来一直认为操作和分析平面是一块维多利亚海绵蛋糕:
这块蛋糕由两层组成,顶部是分析平面,底部是操作平面。两个平面之间有一层可爱的草莓酱,代表负责将数据从操作平面获取到分析平面的数据管道。
数据仓库、数据湖或数据湖屋位于分析平面,因此如果我们打算构建仅基于这一层的数据产品,我们只会消耗蛋糕的上半部分。这不可避免地会导致我们的手指变得粘糊糊的。这在数据世界中意味着我们无法实现去中心化数据所有权所承诺的敏捷性。
原因是:要真正敏捷,域需要负责从操作系统中获取数据,转换数据,然后提供服务。当我们引入数据仓库时,我们依靠一个集中的数据团队来执行摄取和至少一些转换,这是一种数据网格反模式。这不可避免地导致数据产品开发和管理缓慢。
我们从成功采用数据网格中学到的是,域需要构建和管理其数据跨越操作和分析数据平面的数据产品。他们需要从上到下吃掉整块蛋糕。
为了激励域构建数据产品并实现敏捷性,我们在技能、责任和激励方面看到了多种方法。在所有场景下,我们都需要确保每个域都具备构建数据产品所需的技术和数据技能。
这会显着增加企业层面的支出,并且可能会出现跨领域重复的昂贵数据工程技能。另一种方法是提供简化的访问,抽象出对技术知识和技能的大部分需求,以访问操作和分析中的数据。
这种方法大大降低了技术技能水平,从而降低了每个域内专业资源的费用,并确保数据仍然是关注点。
数据网格中的数据管道
在过去的一年里,我听到数据专业人士说数据网格消除了对数据管道的需求,但我观察到的并非如此。管道还活着。然而,当我们考虑数据网格中的管道时,它们本质上是数据产品的“链”。
例如,在上图中,我们有一个数据产品,它从CRM系统获取数据。它的输出数据随后被另一个以特定方式转换它的数据产品使用。然后,我们有另一个数据产品,将该数据与另一个基于ERP系统的数据产品结合起来。
这很有趣并且与以前所做的不同的原因是我们现在对整个管道中的每个数据产品都有明确的所有权。如果数据管道出现问题,我们会立即知道责任人。
此外,数据产品所有者知道他们在消费谁的数据以及谁在消费他们的数据产品。这意味着数据产品所有者可以通知上游数据提供者和下游数据消费者并就他们需要进行的更改进行协作。这个协作和通知目前在Data Mesh社区中正在经历激烈的争论,尤其是围绕数据契约的概念。
根据我的观察,这些更改现在正在集成到版本控制系统中,以便各个数据产品所有者可以根据需要进行版本化更改,而不受其数据产品消费者的限制。
三类数据产品
接下来,当我们考虑Zhamak的书中确定的数据产品类型时,有三种明确定义。
#1源对齐数据产品
第一个是源对齐数据产品。这表示数据在操作系统中的原样,转换最少。我看到组织将这些作为创建更有价值的数据产品的第一步。
我在这里要进行的观察是,数据编织技术正开始用于半自主地创建这些第一级数据产品。我认为这平息了一次又一次出现的争论,围绕哪个是组织的数据网格或数据编织的正确前进路线;我建议答案可能是两者。
在下图中,我们可以看到使用数据编织来自动创建源对齐数据产品,它可以充当消费者对齐数据产品的源。
#2与消费者一致的数据产品
下一个数据产品类型是与消费者一致的数据产品。当“数据产品”被泛指时——这些是人们最常思考和讨论的数据产品。
这些数据产品由域内的业务专家生产,这些专家通过业务知识和专业知识的编纂产生价值。要创建这些数据产品,我们需要尽可能少的“技术摩擦”。域专家应该能够在尽可能少的来自域内外的额外帮助和专业知识的情况下创建这些数据产品。
#3聚合数据产品
最后,聚合数据产品的TL;DR定义是它们是在公司层面构建的,以推动全球KPI。
关于这些是什么以及它们与消费者一致的数据产品有何不同的讨论很多。但是,我们已经看到组织以自己的方式定义了聚合数据产品。下图说明了数据产品如何与企业级KPI和企业的业务目标保持一致。
此外,我们可以看到一种自上而下的方法,我们定义了由跨业务部门KPI组成的公司KPI。较低级别的KPI由源对齐或消费者对齐的域创建的数据产品。在此图中,聚合数据产品是那些将来自跨业务部门KPI数据产品的数据汇集在一起以支持企业级KPI的数据产品。
利用使用指标构建有价值的数据产品
在涉及构建数据产品等新计划时,数据治理通常是首要考虑的问题。当我们考虑治理时,从历史上看,我们会考虑访问控制、安全性、所有权、沿袭和使用指标。使用指标是一种记录、报告和分类数据消费者如何在其分析中利用数据的方式。
从数据产品开发人员的角度来看,使用指标至关重要,因为它们是衡量数据产品价值的一种简单的方法。同时,使用率越高,该数据产品对组织的价值就越高。这意味着数据产品开发人员知道应该关注哪些数据产品,哪些应该淘汰。从高级管理层的角度来看,我们可以实施使用指标作为员工激励和激励的工具。
从最终用户的角度来看,数据产品的使用指标使我们能够洞察数据产品的可信度。使用率越高,我们对数据产品的信任度就越高。
最初,我们需要进行业务分析以破译我们认为哪些数据产品有价值。然后,基于数据使用报告,数据生产者可以采取主动行动,使数据产品更易于使用、更易于查找和更有用。
简而言之,对于数据产品,我们想知道到底是谁在使用它们,我们想知道数据消费者如何使用它们,以便我们衡量它们的价值。因此,我们可以从被动数据管理转变为主动数据管理。
从被动到主动的数据管理
从历史上看,数据所有权一直是事后才想到的,并且由于数据没有被视为产品,因此出于战略原因对数据消耗的调整是非常被动的。然而,随着数据在数据网格中被视为产品,数据的生命周期变得主动并且类似于任何其他产品。这是“数据资产”和“数据产品”之间的主要区别,这是定义任何数据产品的一种非常简单的方法。
数据产品的现代概念以产品管理技术为中心,这些技术将利益相关者定义的价值交付放在首位和中心位置。它鼓励跨职能协作,打破孤岛并提高整个企业的数据流畅性。
接下来,我们将探索创建价值驱动数据产品的一些最佳实践。
#1数据产品入门:从小处着手并迭代
开始使用数据产品时,必须关注一两个具有明确范围和业务价值的特定用例。通过瞄准具有高影响力的用例,组织可以快速取胜并向利益相关者展示数据产品的价值。这种方法还为组织提供了尝试不同工具和方法并确定最适合他们的方法的机会。
专注于具有明确范围和业务价值的用例是为持续的数据产品开发建立的一个关键习惯。鼓励开发人员和业务利益相关者之间持续协作的迭代开发过程也是如此。团队需要共同努力,根据使用情况和反馈改进数据产品。迭代过程通常会揭示开发人员和用户对需求的新理解,并确保与业务需求保持一致。
#2开发数据产品:组建多学科团队
拥有业务和技术专业知识的多元化数据产品团队对于开发数据产品至关重要。根据数据产品的性质,所需技能可能包括数据科学、数据工程、数据分析和数据可视化。至关重要的是,该团队的成员应具有业务领域知识,最好由利益相关者代表,并且具有产品管理技能。
拥有业务和技术专业知识的多元化数据产品团队对于开发数据产品至关重要。
较大的组织通常可以在下图中所示的每个技能领域中将一个或多个人分配到数据产品团队。较小的公司通常需要能够为团队带来多种技能并担任不止一种角色的人。
数据产品团队的知识和技能
#3实现数据产品的价值:数据产品交付平台
为了实现其数据产品的潜在价值,组织必须让用户能够找到、理解、访问和信任它们。因此,数据产品交付平台必不可少。它是一个自助服务门户,使用户能够搜索或浏览合适的数据产品,了解它们的潜在用途,并访问它们或轻松请求访问。数据消费者还必须能够评估产品质量和可靠性,并确定他们是否可以信任满足其需求的数据。因此,平台应提供元数据、文档和数据质量措施,以确保用户了解产品的背景和局限性。
#4为用户提供更多数据:建立数据治理
精心制作的数据产品和良好的交付平台将使更多的用户可以使用更多的数据。对于一直在努力利用其数据的组织而言,这可能具有变革性。然而,它也可能陷入混乱。因此,当务之急是为数据产品在广泛可用之前必须满足的元数据、文档和数据质量建立数据治理标准。自动执行这些标准对于跟上对数据产品不断增长的需求也至关重要。以下是一些自动执行的方法:
●确保数据质量。自动化的数据验证、分析和清理可以帮助识别和纠正数据质量问题,确保数据产品建立在准确、可靠的数据之上。
●保护数据隐私和安全。自动数据屏蔽、加密和访问控制可以保护敏感信息,确保数据产品符合隐私和安全法规。
●促进合规。自动化的数据沿袭、审计跟踪和策略执行可以帮助组织证明其符合数据法规和行业标准,从而最大限度地降低高额罚款和声誉受损的风险。
除了自动化之外,解决数据治理的人员和流程方面也很重要。明确定义数据治理的角色和职责,以确保所有团队成员了解他们在维护数据质量、安全性和合规性方面的作用。通过培训、提高意识和奖励卓越来鼓励数据治理文化。最后,监控和测量关键数据治理指标,例如已识别和缓解的数据质量问题、数据管道的可靠性以及可以删除的未使用数据访问权限。
小结:数据产品是数据驱动型组织必备的能力
将数据视为产品可确保团队将利益相关者的需求和业务价值放在首位。采用数据产品方法时要考虑的最重要的事情是:
专注于具有明确范围和业务价值的用例。
●组建一个具有业务利益相关者代表的多学科数据产品团队。
●通过频繁的利益相关者反馈机会迭代开发数据产品。
●构建强大的产品交付平台,使数据产品易于查找、理解、访问和信任。
●建立自动化数据治理以确保质量和合规性,同时不妨碍创新。
通过这些方法,组织可以利用数据产品的力量推动分析取得成功,并在当今数据驱动的世界中保持竞争优势。