本文来自微信公众号“计算机世界”。
真正以数据为导向的公司比那些没有数据驱动的公司确实收获了明显更好的业务成绩。根据IDC最近的一份白皮书,在许多业务指标上,数据驱动型组织的业绩平均是其他组织的2.5倍。特别是,在使用数据和分析方面处于领先地位的公司的收入提高了3倍,新产品和服务上市时间缩短了近5倍,客户满意度、利润和运营效率提高了2倍以上。
但是,为了从数据和分析中获得最大的价值,公司需要在整个组织中渗透数据驱动文化。在这种文化之中,每个业务部门都能以其需要的方式充分获得所需的数据。
这就是所谓的数据民主化。要做到这一点,需要深思熟虑地收集数据,仔细选择一个允许全面和安全地访问数据的数据平台,并培训和授权员工拥有数据优先的心态。安全和合规风险也迫在眉睫。
以坚实的数据基础为起点
在选择共享数据的平台之前,组织需要了解它已经拥有的数据,并清除其中的错误和重复。
Insight Enterprises的首席架构师和杰出工程师Juan Orlandini认为,准备共享数据的一个重要部分是数据规范化方面的工作。
数据格式和数据架构往往是不一致的,数据甚至可能是不完整的。他说:“突然间,你试图把这些数据交到并非数据专家的人手中。他们真的很容易从这些数据中得出错误的或误导性的理解。”
企业经常在数据规范化方面寻求外部帮助,因为如果做得不正确,企业可能仍然会面临数据质量问题,不能像他们期望的那样充分利用数据。
随着越来越多的公司使用云和云原生开发,数据的规范化也变得更加复杂。
Orlandini说:“它可能存在于NoSQL数据库、图形数据库或现在所有这些其他类型的数据库中,使这些数据库保持一致变得非常具有挑战性。”
有技巧地选择平台
在许多情况下,在没有实行数据民主化的组织中,只有IT部门能够接触到数据和数据智能工具。因此,为了让所有人都能访问数据,需要采纳新的工具和技术。
Orlandini表示,理所当然,成本是一个重要的考虑因素。除此之外,还要决定数据托管在何处,并充分考虑财务需求基础上提供数据。组织可能还会质疑,由于公共云的安全问题,数据是否应该保存在企业内部。但咨询公司SPR的高级数据和分析顾问Kevin Young认为,组织可以首先通过创建一个像亚马逊S3或谷歌云存储这样的的数据湖来共享数据。Young说:“整个组织的成员可以将他们的数据添加到湖中,供所有部门使用。”但是,如果没有适当的关注,数据湖最终可能会变得杂乱无章,并充斥着无法使用的数据。Orlandini认为,大多数组织最终都没能建立起数据湖。他说:“他们实际上建立了一个数据沼泽。”
但是,数据湖并不是创建集中的数据存储库的唯一选择。
另一个选择是通过数据结构,一种体系架构和一组数据服务,提供组织数据的统一视图,并支持从企业内部、云和边缘设备上的各种来源的整合。
数据结构允许组合数据集,而无需创建副本,并且可降低形成孤岛的可能性。
有许多数据结构软件供应商,如IBM Cloud Pak for Data和SAP Data Intelligence。它们在Forrester的企业数据结构2022年第二季度报告中都被评价为这个领域的领导者。但由于有许多可用的选择,可能很难搞清楚究竟该选择哪一个。
专业服务公司Genpact的全球分析领导人Amaresh Tripathy就此表示,最重要的是分析和监测数据,。
他说:“现在有很多平台。你当然应该选择一个符合你的条件的平台,但它至少应该是自动化和可见的。”此外,数据应该可以从自助平台轻松访问,从而使数据分析报告变得容易,即使对于没有技术经验的人来说也是如此。Tripathy说:“就像一个门户,人们可以看到所有数据、数据的含义、度量标准以及数据来源。”
没有完美的工具,而且工具在数据脉络、数据编目和保持数据质量方面不可避免地需要权衡。Tripathy补充说:“大多数组织正试图同时解决这三个问题。有时你在一个问题上过度投入,而在另一个维度上的投入却远远不够。所以一个组织应该决定什么是最重要的,他们应该知道他们为什么要这样做,哪个工具能在这三个维度给他们带来最好的收益,然后做出适当的决定。”
在考虑如何共享数据时,组织也可以考虑实施数据网格。它采取的方法与数据结构相反。数据结构从单个虚拟的集中式系统管理多个数据源,而数据网格是一种企业数据架构形式,采取分散的方法,创建多个特定领域的系统。
Data Collaboration Alliance的运营总监Chris McLellan认为,有了数据网格,组织可以通过把数据交给最了解数据的人,来帮助确保数据得到妥善处理。它可以是一个人,比如财务主管,或者是一群人充当数据管理员。
他说:“其核心是这样一个概念,即数据是一种产品。数据产品是可以由具有领域专业知识的人拥有和管理。”
实现数据网格架构允许组织将特定的数据集交给主题专家。McLellan说:“这些人更接近法规、客户和终端用户。他们更接近关于那个特定信息领域的一切。”
数据网格与任何特定的工具都没有关联,因此各个团队可以选择最适合他们需求的工具,并且不存在任何事情都必须通过中央数据团队的瓶颈。
McLellan说:“你看到的不仅仅是IT或应用交付的权力下放,还有数据管理和数据治理的权力下放。这是好事,因为营销人员比IT团队更了解消费者保护方面的法律,金融部门比IT部门更了解金融法规。”
Forrester警告说,尽管有许多供应商在销售数据网格,但它仍然是一个闪亮的新对象,而且它也面临着挑战,包括定义方式、使用的技术及其价值方面的冲突。
培训和变革管理
一旦建立了数据民主化的架构,员工就需要了解如何使用新的数据流程。Insight的Orlandini说,人们可以获得正确的数据,但即使他们参加了管理或会计培训,他们也不一定会了解如何使用这些数据。数据访问本身不足以使组织成为数据驱动的。他说:“你必须做一些训练。如果你做得不好,你最多只能获得好坏参半的成功,甚至可能是失败。”
一些组织已经开始自己的内部培训计划,以确保员工了解如何解释和正确处理数据。
例如,Genpact公司去年推出了名为的DataBridge计划,以提高整个公司的数据素养。
Tripathy说:“我们的目的不是让10万人成为公民数据科学家。我们只是在他们的工作的背景基础上提供培训。”例如,进行索赔分析的员工不需要学习异常检测的所有知识。他们需要了解的是异常检测对他们意味着什么。他补充道:“你可能具备也可能不具备自己查看数据的所有技能,但你应该能够提出问题并寻求帮助,并且能够以正确的方式提出问题就涉及到数据意识能力了。”
奠定安全与合规基础
从头就需要实施适当的数据治理,以保持数据的完整性并避免昂贵的处罚。
Insight的Orlandini表示,安全和合规团队需要与IT领导一起参与最初的对话。他说:“这是个巨大挑战,很多组织都在努力应对。”他补充说,一个公司的领导层必须确切地了解他们提供的共享内容,并确保这些内容提供给了正确的人。
他说:“我们生活在一个高度监管的世界,我们必须非常小心。尤其是在医疗和金融等行业,如果你让错误的人访问错误的数据,法律方面就会产生严重后果。”
还有一些工具可以帮助企业进行数据屏蔽和数据混淆,以避免泄露个人身份信息。他继续说:“你可以在不透露PII数据、HIPAA记录或任何这些监管要求的情况下开始深入了解数据。还有一些具有基于属性的访问控制工具。通过这些工作,你实际上是用非常具体的属性来标记数据。无论你的属性是什么,都有PII或HIPAA。然后你只能访问具有与之相关的正确属性的数据。”
通过这种方式,数据会自动控制自己。它可以在公共云或混合环境中的多个位置的数据中使用,甚至可以在有严格合规控制的私有环境中使用。
长期效益
数据民主化不仅可以帮助企业加快数据传输速度,还可以让人们更好地了解如何分析和处理数据,从而找到解决问题的新方法。
Gartner表示,通过采用数据民主化,组织可以解决资源短缺,减少瓶颈,并使业务部门能够更轻松地处理自己的数据请求。通过使数据民主化,组织可以通过让更多的人参与数据分析和解释来改进决策;增加组织内团队之间的协作;提高透明度,因为更多的人可以获得信息,并可以看到数据驱动的决策是如何做出的。