本文来自Ai时代前沿,作者/AI情报室。
自从“大数据”出现以来,数据质量就一直是个大问号。15年前,数据专业人士花了大量时间处理数据,使其适合分析,而最新的数据表明,随着我们进入人工智能时代,数据成为一个更大的问题。
来自Dbt实验室的最新证据表明数据质量是一个永恒议题,该公司开发了开源Dbt工具,该工具在数据工程团队中广泛使用。
根据该公司发布的2024年分析工程状况报告,糟糕的数据质量是参与调查的456名分析工程师、数据工程师、数据分析师和其他数据专业人士最关心的问题。
报告显示,57%的受访者认为数据质量是数据准备过程中最具挑战性的三个方面之一。这与2022年分析工程状况报告相比有了显着增长,当时41%的人表示数据质量差是三大挑战之一。
根据Dbt实验室2024年分析工程状态报告,数据质量被认为是数据准备过程中的首要问题。
数据质量并不是唯一的问题。数据专业人士担心的其他问题还包括数据所有权不明确、数据素养差、集成多个数据源以及记录数据产品,所有这些问题出现在30%接受调查的工程师、分析师、科学家和管理人员中。相对较少关注的问题包括安全性和遵从性、数据发掘产品、构建数据转换以及对计算资源的约束。
当被问及他们的组织是否会增加或减少对数据质量和可观察性的投资时,约60%的调查受访者表示他们将保持相同的投资,而约25%的受访者表示会增加投资。只有约5%的人表示,他们将在未来一年减少对数据质量和可观察性的投资。
Dbt并不是唯一一家发现数据质量越来越差的供应商。数据可观察性供应商Monte Carlo在一年前发布了一份报告,得出了类似的结论。供应商的数据质量状况报告发现,数据质量问题事件的数量正在上升,平均事件数量从每个组织的59起增加到2023年的67起。
另一家数据观察供应商Bigeye也发现,数据质量是用户最关心的问题。调查发现,五分之一的公司在过去6个月里经历了两次或更多直接影响业务底线的严重数据泄露事件。报告称,每家公司平均每个季度遭遇5至10起数据质量事件。
数据质量下降的趋势值得关注,特别是当数据对决策变得越来越重要的时候。随着企业开始依赖预测分析和人工智能,坏数据的潜在影响变得更加严重。
2021年,Gartner的研究估计,糟糕的数据质量平均每年给企业造成1290万美元的损失,这是一个惊人的数字。
糟糕的数据对生成式人工智能(GenAI)尤其有害。今年2月,Informatica的一项调查调查了实施GenAI面临的最大挑战,结果发现——你猜对了——数据质量排在第一位。调查发现,42%正在部署或计划部署GenAI的数据领导者将数据质量列为GenAI成功的首要考虑因素。
我们能否一劳永逸地解决数据质量问题?卡内基梅隆大学计算机科学教授、DataChat的联合创始人Jignesh Patel认为,不太可能。
“数据永远不会完全干净。”他说,“你总是需要一些治理环节。”
Patel说,数据质量永远不会是一个“已解决的问题”,部分原因是数据总是以各种方式从各种来源收集,并且数据质量取决于观察者的看法。“你总是在收集越来越多的数据,如果你能找到一种方法来获得更多的数据,那么它总是会很混乱。它永远是脏的。”