本文来自微信公众号“谈数据”,作者/石秀峰。
数据质量管理包含正确定义数据标准,并采用正确的技术、投入合理的资源来管理数据质量。数据质量管理策略和技术的应用是一个比较广泛的范畴,它可以作用于数据质量管理的事前、事中、事后三个阶段。
数据质量管理应秉持预防为主的理念,坚持将“以预控为核心,以满足业务需求为目标”作为工作的根本出发点和落脚点,加强数据质量管理的事前预防、事中控制、事后补救的各种措施,以实现企业数据质量的持续提升,如下图所示。
01数据质量管理策略之事前预防
东汉史学家荀悦在《申鉴·杂言上》中提到对皇帝进献忠告的三种方法,也称进忠有三术:“一曰防,二曰救,三曰戒。先其未然谓之防,发而止之谓之救,行而责之谓之戒。防为上,救次之,戒为下。”
事前预防即防患于未然,是数据质量管理的上上之策。数据质量管理的事前预防可以从组织人员、标准规范、制度流程三个方面入手。
1、加强组织建设
企业需要建立一种文化,以让更多的人认识到数据质量的重要性,这离不开组织机制的保障。建立数据质量管理的组织体系,明确角色职责并为每个角色配置适当技能的人员,以及加强对相关人员的培训和培养,这是保证数据质量的有效方式。
(1)组织角色设置
企业在实施数据质量管理时,应考虑在数据治理整体的组织框架下设置相关的数据质量管理角色,并确定他们在数据质量管理中的职责分工。常见的组织角色及其职责如下。
数据治理委员会:为数据质量定下基调,制定有关数据基础架构和流程的决策。数据治理委员会定期开会以新的数据质量目标,推动测量并分析各个业务部门内数据质量的状态。
数据分析师:负责数据问题的根因分析,以便为数据质量解决方案的制定提供决策依据。
数据管理员:负责将数据作为公司资产进行管理,保障数据质量,例如定期数据清理、删除重复数据或解决其他数据问题。
(2)加强人员培训
数据不准确的主要原因是人为因素,加强对相关人员的培训,提升人员的数据质量意识,能够有效减少数据质量问题的发生。
数据质量管理培训是一个双赢的过程。对于员工来说,通过培训,自己不仅能够认识到数据质量对业务和管理的重要性,还能学习到数据管理理论、技术、工具等知识和技能,确保上游业务人员知道他们的数据对下游业务和应用程序的影响,让自己在工作中尽可能不犯错、少犯错,提高自己的业务处理效率和质量。对于企业来说,通过培训,可以使数据标准得到宣贯,提升员工的数据思维和对数据的认识水平,建立起企业的数据文化,以支撑企业数据治理的长治久安。
有关数据治理培训机制的相关策略在第6章中已经详细描述过,此处不再赘述。
此外,企业应鼓励员工参加专业资格认证的培训,这样能够让相关人员更加系统性地学习数据治理知识体系,提升数据管理的专业能力。
2、落实数据标准
数据标准的有效执行和落地是数据质量管理的必要条件。数据标准包括数据模型标准、主数据和参考数据标准、指标数据标准等。
(1)数据模型标准
数据模型标准数对数据模型中的业务定义、业务规则、数据关系、数据质量规则等进行统一定义,以及通过元数据管理工具对这些标准和规则进行统一管理。在数据质量管理过程中,可以将这些标准映射到业务流程中,并将数据标准作为数据质量评估的依据,实现数据质量的稽查核验,使得数据的质量校验有据可依,有法可循。
(2)主数据和参考数据标准
主数据和参考数据标准包含主数据和参考数据的分类标准、编码标准、模型标准,它们是主数据和参考数据在各部门、各业务系统之间进行共享的保障。如果主数据和参考数据标准无法有效执行,就会严重影响主数据的质量,带来主数据的不一致、不完整、不唯一等问题,进而影响业务协同和决策支持。
(3)指标数据标准
指标数据是在业务数据基础上按照一定业务规则加工汇总的数据,指标数据标准主要涵盖业务属性、技术属性、管理属性三个方面。指标数据标准统一了分析指标的统计口径、统计维度、计算方法的基础,不仅是各业务部门共识的基础,也是数据仓库、BI项目的主要建设内容,为数据仓库的数据质量稽查提供依据。
3、制度流程保障
(1)数据质量管理流程
数据质量管理是一个闭环管理流程,包括业务需求定义、数据质量测量、根本原因分析、实施改进方案、控制数据质量,如下图所示。
①业务需求定义
笔者的一贯主张是:企业不会为了治理数据而治理数据,背后都是为了实现业务和管理的目标,而数据质量管理的目的就是更好地实现业务的期望。
第一,将企业的业务目标对应到数据质量管理策略和计划中。
第二,让业务人员深度参与甚至主导数据质量管理,作为数据主要用户的业务部门可以更好地定义数据质量参数。
第三,将业务问题定义清楚,这样才能分析出数据数量问题的根本原因,进而制定出更合理的解决方案。
②数据质量测量
数据质量测量是围绕业务需求设计数据评估维度和指标,利用数据质量管理工具完成对相关数据源的数据质量情况的评估,并根据测量结果归类数据问题、分析引起数据问题的原因。
第一,数据质量测量以数据质量问题对业务的影响分析为指导,清晰定义出待测量数据的范围和优先级等重要参数。
第二,采用自上而下和自下而上相结合的策略识别数据中的异常问题。自上而下的方法是以业务目标为出发点,对待测量的数据源进行评估和衡量;自下而上的方法是基于数据概要分析,识别数据源问题并将其映射到对业务目标的潜在影响上。
第三,形成数据治理评估报告,通过该报告清楚列出数据质量的测量结果。
③根本原因分析
产生数据质量问题的原因有很多,但是有些原因仅是表象,并不是根本原因。要做好数据质量管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
④实施改进方案
没有一种通用的方案来保证企业每个业务每类数据的准确性和完整性。企业需要结合产生数据问题的根本原因以及数据对业务的影响程度,来定义数据质量规则和数据质量指标,形成一个符合企业业务需求的、独一无二的数据质量改进方案,并立即付诸行动。
⑤控制数据质量
数据质量控制是在企业的数据环境中设置一道数据质量“防火墙”,以预防不良数据的产生。数据质量“防火墙”就是根据数据问题的根因分析和问题处理策略,在发生数据问题的入口设置的数据问题测量和监控程序,在数据环境的源头或者上游进行的数据问题防治,从而避免不良数据向下游传播并污染后续的存储,进而影响业务。
(2)数据质量管理制度
数据质量管理制度设置考核KPI,通过专项考核计分的方式对企业各业务域、各部门的数据质量管理情况进行评估。以数据质量的评估结果为依据,将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结发生数据质量问题的规律,利用数据质量管理工具定期对数据质量进行监控和测量,及时发现存在的数据质量问题,并督促落实改正。
数据质量管理制度的作用在于约束各方加强数据质量意识,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源、主动解决。
02数据质量管理策略之事中控制
数据质量管理的事中控制是指在数据的维护和使用过程中监控和管理数据质量。通过建立数据质量的流程化控制体系,对数据的创建、变更、采集、清洗、转换、装载、分析等各个环节的数据质量进行控制。
1、加强数据源头的控制
“问渠那得清如许,为有源头活水来。”了解数据的来源对于企业的数据质量至关重要,从数据的源头控制好数据质量,让数据“规范化输入、标准化输出”是解决企业数据质量问题的关键所在。企业可以考虑从以下几个方面做好源头数据质量的管理。
(1)维护好数据字典
数据字典是记录标准数据、确保数据质量的重要工具。数据会随着时间累积,如果数据积累在电子表格等非正式数据系统中,那么这些宝贵的数据就可能会存在一定的风险,例如可能会随着关键员工的离职而丢失。通过建立企业级数据字典对企业的关键数据进行有效标识,并清晰、准确地对每个数据元素进行定义,可以消除不同部门、不同人员对数据可能的误解,并让企业在IT项目上节省大量时间和成本。
(2)自动化数据输入
数据质量差的一个根本原因是人为因素,手动输入数据,很难避免数据错误。因此,企业应该考虑自动化输入数据,以减少人为错误。一个方案,只要系统可以自动执行某些操作就值得实施,例如,根据关键字自动匹配客户信息并自动带入表单。
(3)自动化数据校验
对于疾病,预防比治疗更容易,数据治理也一样。我们可以通过预设的数据质量规则对输入的数据进行自动化校验,对于不符合质量规则的数据进行提醒或拒绝保存。数据质量校验规则包括但不限于以下几类。
数据类型正确性:数字、整数、文本、日期、参照、附件等。
数据去重校验:完全重复的数据项、疑似重复的数据项等。
数据域值范围:最大值、最小值、可接受的值、不可接受的值。
数据分类规则:用来确定数据属于某个分类的规则,确保正确归类。
单位是否正确:确保使用正确的计量单位。
(4)人工干预审核
数据质量审核是从源头上控制数据质量的重要手段,采用流程驱动的数据管理模式,控制数据的新增和变更,每个操作都需要人工进行审核,只有审核通过数据才能生效。例如:供应商主数据发生新增或变更,就可以采用人工审核的方式来控制数据质量。
2、加强流转过程的控制
数据质量问题不止发生在源头,如果以最终用户为终点,那么数据采集、存储、传输、处理、分析中的每一个环节都有可能出现数据质量问题。所以,要对数据全生命周期中的各个过程都做好数据质量的全面预防。数据流转过程的质量控制策略如下。
(1)数据采集
●在数据采集阶段,可采用以下质量控制策略:
●明确数据采集需求并形成确认单;
●数据采集过程和模型的标准化;
●数据源提供准确、及时、完整的数据;
●将数据的新增和更改以消息的方式及时广播到其他应用程序;
●确保数据采集的详细程度或粒度满足业务的需要;
●定义采集数据的每个数据元的可接受值域范围;
●确保数据采集工具、采集方法、采集流程已通过验证。
(2)数据存储
●在数据存储阶段,可采用以下质量控制策略:
●选择适当的数据库系统,设计合理的数据表;
●将数据以适当的颗粒度进行存储;
●建立适当的数据保留时间表;
●建立适当的数据所有权和查询权限;
●明确访问和查询数据的准则和方法。
(3)数据传输
●在数据传输阶段,可采用以下质量控制策略:
●明确数据传输边界或数据传输限制;
●保证数据传输的及时性、完整性、安全性;
●保证数据传输过程的可靠性,确保传输过程数据不会被篡改;
●明确数据传输技术和工具对数据质量的影响。
(4)数据处理
●在数据处理阶段,可采用以下质量控制策略:
●合理处理数据,确保数据处理符合业务目标;
●重复值的处理;
●缺失值的处理;
●异常值的处理;
●不一致数据的处理。
(5)数据分析
●确保数据分析的算法、公式和分析系统有效且准确;
●确保要分析的数据完整且有效;
●在可重现的情况下分析数据;
●基于适当的颗粒度分析数据;
●显示适当的数据比较和关系。
●事中控制的相关策略
03数据质量管理之事后补救
是不是做好了事前预防和事中控制就不会再有数据质量问题发生了?答案显然是否定的。事实上,不论我们采取了多少预防措施、进行了多么严格的过程控制,数据问题总是还有“漏网之鱼”。你会发现只要是人为干预的过程,总会存在数据质量问题,即使抛开人为因素,数据质量问题也无法避免。为了尽可能减少数据质量问题,减轻数据质量问题对业务的影响,我们需要及时发现它并采取相应的补救措施。
1、定期质量监控
定期质量监控也叫定期数据测量,是对某些非关键性数据和不适合持续测量的数据定期重新评估,为数据所处状态符合预期提供一定程度的保证。
定期监控数据的状况,为数据在某种程度上符合预期提供保障,发现数据质量问题及数据质量问题的变化,从而制定有效的改进措施。定期质量监控就像人们定期体检一样,定期检查身体的健康状态,当某次体检数据发生明显变化时,医生就会知道有哪些数据出现异常,并根据这些异常数据采取适当的治疗措施。
对于数据也一样,需要定期对企业数据治理进行全面“体检”,找到问题的“病因”,以实现数据质量的持续提升。
2、数据问题补救
尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。
(1)清理重复数据
对经数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。
(2)清理派生数据
派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。
(3)缺失值处理
处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。自动插补主要有三种方式:
●利用上下文插值修复;
●采用平均值、最大值或最小值修复;
●采用默认值修复。
当然,最为有效的方法是采用相近或相似数值进行插补,例如利用机器学习算法找到相似值进行插补修复。
(4)异常值处理
异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到以下机器学习技术:
●基于统计的异常检测;
●基于距离的异常检测;
●基于密度的异常检测;
●基于聚类的异常检测。
以上涉及的机器学习算法不在本书的讨论范围之内,有兴趣的读者可以参考相关的机器学习图书。
3、持续改进优化
数据质量管理是个持续的良性循环,不断进行测量、分析、探查和改进可全面改善企业的信息质量。通过对数据质量管理策略的不断优化和改进,从对于数据问题甚至紧急的数据故障只能被动做出反应,过渡到主动预防和控制数据缺陷的发生。
经过数据质量测量、数据问题根因分析以及数据质量问题修复,我们可以回过头来评估数据模型设计是否合理,是否还有优化和提升的空间,数据的新增、变更、采集、存储、传输、处理、分析各个过程是否规范,预置的质量规则和阈值是否合理。如果模型和流程存在不合理的地方或可优化的空间,那么就实施这些优化。
事后补救始终不是数据质量管理的最理想方式,建议坚持以预防为主的原则开展数据质量管理,并通过持续的数据质量测量和探查,不断发现问题,改进方法,提升质量。
写在最后的话
数据质量影响的不仅是信息化建设的成败,更是影响企业业务协同、管理创新、决策支持的核心要素。对于数据质量的管理,坚持“垃圾进,垃圾出”的总体思想,坚持“事前预防、事中控制、事后补救”的数据质量管理策略,持续提升企业数据质量水平。
尽管可能没有一种真正的万无一失的方法来防止所有数据质量问题,但是使数据质量成为企业数据环境“DNA”的一部分将在很大程度上能够获得业务用户和领导的信任。
注:本文摘自《一本书讲透数据治理战略、方法、工具与实践》机械工业出版社。这本书参考了国内外数据治理理论体系,基于笔者15多年数据工作经验和实践基础,并花费了2年的时间不断打磨而成。一经出版,便获得了业内专家和企业的高度认可,成为了很多企业数据治理内部必学书籍,获得了机械工业出版社优秀作者等多项殊荣。在此,感谢各位读者的关注和认可!在新年伊始之际,我祝所有的读者朋友,在2023新的一年里都身体健康、万事顺遂、皆得所愿!