数据中台不是通天浮屠——盘点数据域的几大误区

郑金辉
数据思维是一种简化思维,需要我们在纷繁的信息中,聚焦核心问题,从多维度多角度去抽丝剥茧的找到解决问题的路径。数据思维也是一种量化思维,从某种程度说业务数据化的核心就是量化,所有的业务都可以用数据来量化描述。

本文来自微信公众号“twt企业IT社区”,作者/郑金辉。

最近一直在持续关注某领域在数据层面的大动作,也跟部分行业头部客户做了很多交流和探讨,同时还在反思数据域的建设和持续运营到底应该如何开展。2020年4月发布的《关于构建更加完善的要素市场化配置的体制机制的意见》中明确指出“数据”与土地、劳动力、资本、技术等传统要素一样,是新型的生产要素,同时《意见》也给数据域的发展提出了更高的要求。那如何使用数据这一新型生产要素呢?又如何实现数据价值形成真正的数据生产力呢?下面试着做一些分析。

一、双向奔赴,跨越技术和业务的鸿沟

首先要关注一个问题,很多人认为技术和业务人存在天然的隔阂和矛盾,这也是客观存在的事实。究其原因,还是因为双方的工作内容、职责定位和关注点的不同。数据业务开展不起来或者运行不畅,跟这个问题也是息息相关。

回避不是办法,解决问题的第一步还是直面问题。如果仔细研究就会发现一个有趣的现象,那就是在数字化转型的大背景下,无论技术还是业务,都不约而同的用“造新词”的方式在客观上挖了很多沟通上的鸿沟。对技术人员而言,有很多听起来都头大的业务术语和约定俗成的行内黑话;对业务人员而言,要面对数不胜数的IT新概念,数仓还没搞明白,数据湖又来了,数据分析平台还没建完数据中台又来了。这样一来,给原本就沟通顺畅的双方造成了更大的障碍。

所以说,需要双向奔赴才能解决这个难题,通俗点说就是少“造新词”,多“说人话”,真诚很重要。这里面的关键角色是业务专家和技术专家,业务专家需要把复杂的业务场景简单直接的让技术人员明白业务本质,让技术人员理解业务模式;技术专家需要用最简单的语言告诉业务人员技术的价值和发展路径。

针对数据场景来说,双方需要建立的共同认知就是数据意识和数据思维。

二、拥有数据≠拥有数据思维

1、什么是数据思维

数据思维,是相较于传统思维而言的一种思维方式,也是企业如何利用数据的一种根本性的方法论。参考网上的说法:

我们判断和分析事物的变化形成结论,一般有两种方法,一种是通过对事物所涉及的一系列数据进行收集、汇总、对比、分析而形成结论。另一种是通过感官、经验、主观和感性判断而形成结论。前者可以称为“数据思维”,后者可以称为“经验思维或传统思维”。

数据思维是用数据来探索、思考事物的一种思维模式,用数据来发现问题、洞察规律、探索真理。企业的数字化转型过程需要的数据思维,就是用数据思考,用数据说话、用数据管理、用数据决策。

数据思维是一种简化思维,需要我们在纷繁的信息中,聚焦核心问题,从多维度多角度去抽丝剥茧的找到解决问题的路径。数据思维也是一种量化思维,从某种程度说业务数据化的核心就是量化,所有的业务都可以用数据来量化描述。同时,数据思维是一种创新思维,数据资源跟其他生产要素最大的区别就是可复用性和可再生性,数据具有可重复使用,组合使用,跨平台使用的特点,企业可以通过多维度方式,突破部门边界、业务边界、系统边界、技术边界的束缚,创新新模式,开拓新领域,确立新决策,不断发掘数据背后所隐藏的“价值”。

2、数据思维的误区

第一,有了数据,就有了数字思维。一切业务数据化、一切数据业务化,不只是说说,对推动业务逻辑发生很多根本性变革,也会推动传统数据服务从支撑向运营演进。

第二,数据体量,越大越好。数据归集和数据融合的目的,不是囤积数据,而是持续提升数据价值。重要的不是体量,而是质量,还有完整性。

第三、数据就是事实,就是真理。总会有很多人认为,有了客观的数据就一定会有业务层面的真相,就像按图索骥一样。数据不会说话,也没有态度,让他们发挥价值的是模型和算法,还有应用场景,如果这些出了差错,结果可能会很离谱。当年Nokia针对智能机的调研,就是一个教训。错的不是数据,而是迷信数据。

第四,有了数据,就能精益管理。数据有着天然的不确定性,从数据采集、存储、分析和展现等各个环节来说,数据都可能存在不完整、不准确、被干扰、被污染的可能。数据永远是为业务和管理服务的。管理同样也存在着很大的不确定性,各种内外部条件和环境都在随时发生着变化。数据是科学,管理是艺术,不能直接画等号。

第五,数据是数据,业务是业务。很多人会把数据和业务割裂开,有的是缺乏整体认知,有的是受其他因素掣肘不得已而为之。不管什么原因,“数据为王,业务是核心”,与其说培养理解数据的能力,不如说是理解业务的能力。只有将数据置于业务场景中,数据才能变得有意义。

你可能觉得以上都是废话,但是却每天都是真真切切的发生。数据也好、业务也罢,就像一个迷局,你我何尝不在局中。

三、任何一种技术都不是通天浮屠,数据中台也是一样

提起现在数据域的架构,有点技术背景的,都很容易就能画出一张架构图,下面是云网基础设施、中间是数据中台、上面是数据应用,放之四海而皆准。套路,这都是赤裸裸的套路。不少南郭先生,靠这种套路,混得风生水起。那这种套路的问题在哪儿呢?

1、数据中台能否发挥价值,关键在于有没有形成数据产品(服务)

其实数据平台也好数据中台也罢,核心思想就是试图发挥数据价值,形成真正的数据生产力。这里面有三个紧密关联的环节,数据研发、数据治理和数据服务。

数据研发,不仅仅指数据研发本身,更重要的时候实现以数据快速开发为核心的数据全生命周期的管理;数据治理,已经从传统的一乱一治的被动的旁路方式进化到现在的主动式的在线模式,传统模式不能深入到研发环节,现在关注持续的数据质量改进和全要素数据监控;数据服务,重点关注数据基础设施和数据中台能否把能力封装成上层应用可以调用的服务或者产品。

2、关注数据底座,批流一体or湖仓一体?

数据域的存储层面,一直在演进和变化,从数仓到数据湖再到现在比较流行的湖仓一体化,不管是湖上建仓还是仓边建湖,都是为了实现更多类型数据的高效存储和提取。湖仓一体领域的三巨头,Delta Lake、Iceberg、Hudi,激战正酣,胜负难料,没有形成统一标准。而且现有的大多数湖仓一体架构,并不强调批流一体的概念,只是把湖仓在功能上整合在一起。这样会导致一个问题,就是底层的存储始终无法真正统一。现在出现了一种新的思路,基于湖仓一体做流式湖仓,基于流式湖仓提供批流一体、开箱即用的元数据服务,实现大数据存储层面的真正统一。

3、数据治理,门道很多

现在有数据平台架构和建设思路,对数据治理关注严重不够。从实际效果上看,跨层查询户导致查询慢,指标不一致会导致数据结果和一致性的问题,这些的根源说到底还是数据质量的问题。从现有的经验来看,数据治理除了依靠系统以外,还需要重视以下方面:全链路数据跟踪监测体系,从数据源、数据模型到数据应用的全链路监控;构建数据质量运维基线,根据任务要求建立合理的基线预警,对数据质量问题早发现早处置;任务关联性和影响性分析,有点像业务连续性里面的业务影响性分析,基于全链路的数据血缘,梳理上下数据依赖关系,及时通报及时修复。都说数据治理要从事后走向事前,哪儿有那么容易啊!

总之,数据域需求很迫切也和旺盛,但是道阻且长,唯有坚持以业务为中心,坚持服务至上的理念,才能保证走在正确的道路上。前面说的,其实也都是套路,我说不定也是南郭先生。

原题:从数据资源到数据价值,再到数据生产力,作者个人公众号:向云而生

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论