本文来自微信公众号“数据驱动智能”,作者/晓晓。
数据准确性是指可以作为可靠信息来源的无错误记录。
在数据管理中,数据准确性是数据质量框架的首要组成部分和标准。杰克·奥尔森(Jack Olson)撰写的一篇著作《数据质量:准确性维度》将形式和内容解释为数据准确性的两个最重要特征。
下面是一个例子:
在美国数据库中,日期遵循MM/DD/YYYY格式,而在欧盟数据库和世界其他国家/地区中,日期格式为DD/MM/YYYY。如果将09/10/2020转换为内容,您认为两者中哪一个是准确的?
是9月10日还是10月9日?这是威胁数据准确性的经典意义与形式问题。而这通常是由于缺乏数据标准化和规则而发生的。
存储在数据仓库中的任何数据都必须准确且适合使用。它会影响组织的商业智能、预测、预算和其他关键活动。如果数据不相关、不正确、不完整和不准确,则可能会中断流程并影响运营效率。
数据不准确的原因是什么
数据不准确的原因有很多。一些最常见的原因是:
不良的数据输入做法:数据不准确是不良数据输入做法的结果。没有数据治理的组织将看到以多种格式、样式和种类输入的数据。例如,一位客户的性别可能由三位不同的代表以三种不同的方式书写。更糟糕的是,从社交媒体获取的数据很容易出现错误、拼写错误和复制/粘贴错误。
不规范数据可访问性:CRM是这一点的一个很好的例子。销售、营销、客户服务和客户经理同时访问CRM,CRM可能成为重复、不一致、不准确数据的温床。例如,营销代表可能想在发布案例研究之前验证客户的公司名称,结果却发现公司名称字段中的拼写错误或缩写形式可能是由销售代表键入或修改的。营销代表必须经过多轮验证才能修复此错误。更糟糕的是,如果案例研究未经验证就发布,客户最终可能会指出错误。
数据质量通常没有得到解决:团队忙于销售、营销和促销,无暇考虑数据集中的错误信息。领导层忙于考虑对云、大数据系统、高级软件和技术的投资,而无暇顾及数据。IT团队忙于帮助领导层进行“转型”,而无暇顾及完全不同、重复、不准确的数据。数据质量或准确性不是董事会讨论的问题。只有当出现严重错误(如有缺陷的报告或无效的营销活动)时,它才会成为人们关注的焦点。
所有这些原因导致巨额损失。
不准确数据的高成本
一些统计数据可以说明这一点。
●不良数据使公司损失了大约15%的收入。(Gartner)
●数据质量不佳对组织造成的平均财务影响为每年970万美元。(Gartner)
●仅在美国,由于数据质量差,企业每年损失3.1万亿美元。(IBM)
●多项研究报告表明,不良数据平均会使企业损失30%或更多的收入。
●近三分之一的分析师将超过40%的时间用于审查和验证他们的分析数据。(福雷斯特)
●知识工作者将50%的时间浪费在隐藏的数据工厂中,寻找数据、查找和纠正错误,以及为他们不信任的数据搜索确认来源。(哈佛商业评论)
●在发送电子邮件时遇到问题的人中,有28%的人表示客户服务因不良数据而受到影响。
●20%到30%的运营费用是由于不良数据造成的。
这些统计数据证明,不准确、不良的数据是大多数组织中的一个长期问题,并且对投资回报率、公司声誉和客户信心产生巨大影响。
为什么必须保持数据准确性
见解。分析。智能。
公司希望通过数据实现的三个主要目标。这不是通过更多的数据来实现的。它是通过准确、完整、及时、可靠的数据来实现的。
正是通过这些目标,企业才能做出关键决策,例如:
●拓展新市场
●启动新服务
●了解市场地位
●了解竞争对手
●了解客户和个性化客户服务
●启用高效的公司流程
●等等。
根据行业的不同,数据准确性可以成就或破坏企业。不准确数据对现实世界的影响不容忽视。
数据质量和数据准确性不高的三大障碍
大量费用被投资于数据管理解决方案。然而,哈佛商业评论一项对75名高管的研究显示,只有3%的高管发现他们的准确数据处于可接受范围内,即100条记录中有97条或更多条记录是正确的。
公司正在努力保持数据准确性,因为他们的重点只是收集更多数据,而不是使当前数据可用。
根据经验,存在三个阻碍公司保持准确记录的基本障碍。
糟糕的数据文化:公司尚未真正接受数据驱动的文化。对技术进行了大量投资,但对数据意识培训的投资很少甚至没有。员工大多忘记了数据质量或数据准确性等概念。长期以来,这些做法仅限于IT部门。当涉及到客户数据时,业务人员可以随意更改,不遵守任何定义的标准或数据质量协议。这些差距使公司无法实现数据准确性,从而损害数据完整性。
数据囤积而不是数据驱动:数据囤积真的没有尽头。公司每天都在大数据技术上花费巨额费用来收集更多数据。但是没有适当的系统来理解这些数据。没有可用的资源来及时清理、分类、管理数据。没有自动化,也绝对没有解决导致第三个障碍的数据质量问题的流程。
顽固地依赖过时的方法和技术:在当今的大多数组织中,数据仍然是使用Excel、SQL或ETL工具手动准备的。所有这些都无法处理现代数据的复杂性——尤其是通过社交媒体、第三方供应商或网络表单或聊天机器人获得的客户数据。这些数据充满了错误、不准确和奇怪的地方,无法手动处理或准备,因为公司需要几个月的时间来清理和匹配数千行数据。
不承认确保数据质量的迫切需要会阻碍进步并影响投资回报率,这是我们下面的下一个要点。
如何计算数据准确性的投资回报率
投资回报率决定了所有(如果不是大多数)公司决策。与所有其他流程一样,我们将尽最大努力通过衡量其投资回报率来证明在数据质量上的支出是合理的,大多数高管将使用传统方法来实现这一点:
如果我们支出费用修复数据,我们能赚多少钱?好吧,这是一个非传统的答案。
在以下情况下,您可以提高投资回报率:
●您的公司不会因为错误数据而犯错。
●您不会花费每一块钱来修复每条记录。
●您的团队可以访问干净、集中的数据源进行工作。
●修复数据的好处超过了掩盖由不良数据引起的错误和低效率的成本。
●您可以根据源自准确数据的洞察力和报告做出自信的决策。
事实上,任何数据质量计划的投资回报率都是难以度量的。但不良数据的代价非常明显。由于重复、过时的数据、不完整的数据、不匹配的数据、无法访问和分散的数据,企业每年损失数百万元甚至更多。
这是一个例子:
一家基于订阅的在线学习公司需要匹配从三个来源获得的一百万条记录:销售线索表格、CRM、客户服务。
该公司使用传统的ETL工具执行匹配,但最终出现3.5%的误报和6.8%的误报。仅这个数字就使公司损失了数百美元的销售额和人力时间(人工审查每个假阴性和阳性)。如果公司认真地采取了数据质量计划,他们就可以防止11%的总记录被浪费。
一百万的11%=11,0000
假设每位顾客支付100美元
那是11,0000 x 100=11000000
浪费了1100万美元的收入。这对任何公司的盈利能力都是一个巨大的打击。
采取哪些措施来提高数据准确性
您可能想聘请数据分析师,或者也许替换新的CRM,或者可能会(再次)要求IT团队提出解决方案。
停止!!!这些都行不通。
我建议立即采取的一些步骤是:
●进行数据质量审计。找出影响数据质量的前五个问题。您会发现一些最常见的问题是重复、不完整的信息和存储在多个孤岛中的数据,其中一半以上要么已过时,要么已被遗忘。
●衡量估计的影响。假设本月有1000个新线索。这些线索中有多少实际上是可用的?如果只是两三百,你就会损失收入。
●测量修复此数据所需的人力。在验证和修复信息上花费了多少时间?他们是手动做的吗?打了多少个电话,每次通话的平均持续时间是多少?评估手动修复此数据的成本。如果您的团队需要一个月的时间来验证、清理、删除重复数据并修复1000行的数据集,那么需要寻找一种更快、更自动化的解决方案。
●选择自动化解决方案:在审核数据时,您可能会意识到需要一个数据匹配解决方案来帮助删除重复项,并可能将来自多个来源的多个数据集整合到一个统一的黄金记录中。这就需要自动化的解决方案进行数据匹配和重复数据删除。除此之外,自动化工具还可以分析、清理、标准化和准备数据。
●聘请数据分析师来管理数据准备:您可能会考虑聘请数据分析师并让他们进行清理,但这并不是他们技能的正确用途。数据分析师必须拥有正确的工具和资源,以帮助他们帮助您获得准确的数据。他们必须是思想家和战略家,而为他们提供的解决方案是实干家。分析师不得将80%的时间花在清洁工作上(专家声称数据清理是数据清洁工作,这可不好玩!)。让解决方案进行清洁,让分析师进行思考!
●只关注要修复的特定数据集,而不是整个数据源:不可能对整个数据源或数据库执行一揽子操作。那样不仅没有用,还白费力气。相反,应专注于优化您为即时任务所需的数据——例如清理过去六个月的数据以准备半年度报告,或最后一个季度的数据以准备促销活动。当您首先专注于修复重要数据时,您将逐渐开始对其他数据进行排序,并开始决定要保留什么以及要丢弃什么。
通过这些即时步骤,可以让您的团队做好准备,以处理基本的业务运营,例如即将到来的迁移计划、大型促销活动或商业智能报告。拥有准确数据的根本目标是确保数据完整性。您的数据可以成就或破坏您的业务。你足够信心去修复它吗?
结论:不要在数据准确性上妥协,公司需要值得信赖的数据
数据质量是目标。数据准确性是结果。拥有合适的数据质量人才和工具,高质量的数据使公司能够更好地自信地迈向未来。