本文来自IT168网站,作者/陶然。
如今,数据正在大规模地产生,为机器学习提供了绝佳的机会。然而,对于数据科学家和机器学习实践者来说,这些数据的很大一部分仍然是超界的。严格的隐私管理、高昂的成本、长时间的处理都阻碍了数据的分析。
因此,Gartner预估85%的AI项目都将失败,这就是合成数据的好处所在。
合成数据是在详细的算法和仿真的帮助下系统生成的人工数据。它是完全匿名的数据,是真实数据的绝佳替代品,因为它允许组织创建按需培训数据,无论他们想要多大的规模。
什么是合成数据?
人工智能算法人工创建合成数据,但它是在真实数据集上训练的,具有与原始数据相同的属性。由于合成数据与实际数据没有一对一的关联,因此重新识别的机会更少。
因此,数据科学家可以自信地复制和使用数据进行测试和建模,而不会有暴露个人身份信息的风险,也不会与监管机构发生冲突。
如何生成合成数据?
有几种方法可以生成合成数据。更简单的选择包括蒙特卡洛模拟和从分布集中绘制数字,但如果数据集很复杂,通常首选生成模型。
生成模型是基于神经网络的,它可以自动从现实数据中找到的模式中学习,并产生与现实数据精确匹配的信息。生成对抗网络(GANs)和变分自编码器(VAEs)是两种常见的生成模型架构。
在GAN模型中,两个神经网络模型(称为生成器和鉴别器)在一个零和游戏中竞争,其中一个网络的收益就是另一个网络的损失。另一方面,变分自编码器是工作在编码器-解码器概念上的无监督模型。
什么工具有助于合成数据的生成?
下面是可以用来创建合成数据的工具示例:
Datagen是一个合成数据集解决方案,提供逼真的数据集,可用于物联网(IoT)、机器人和增强现实(AR)。
Scikit-learn构建于Matplotlib、NumPy和SciPy之上,是一个开源的Python库,提供了生成合成数据集的工具。
Pydgben是一个Python库,它可以创建常见的条目,如姓名、工作、信用卡号码、电子邮件地址等。
并行域是一个合成数据平台,产生高质量的传感器数据,以改善ML模型和计算机视觉工作流程。
使用合成数据的好处
在构建机器学习模型时,合成数据比其他类型的数据更具可扩展性、更容易使用、更具有成本效益。
可伸缩性。ML模型消耗大量数据。为了训练和测试的目的,根本不可能获得如此大量的有关数据。借助合成数据工具,数据科学家可以创建任意数量的数据副本,以构建高质量的AI/ML模型。
易用性。在处理真实数据时,保护个人信息、消除不准确信息和有效地处理不同格式的数据至关重要。合成数据处理起来要容易得多,因为它掩盖了私人信息、消除了错误,并标准化了格式,以更直观地进行标记。
具有成本效益。获取真实的培训数据可能会让企业花费大量资金。此外,手动标记它们是耗时的。有了合成数据生成工具,这一过程被简化,并证明是一个更经济和更快的过程。
使用合成数据的挑战
合成数据提供了一些好处,但它也有一定的局限性。例如,一个显著的缺点是,有效地使用合成数据需要高技能的分析师,他们知道如何使用复杂的数据生成器工具。这通常是困难的,因为在就业市场上缺乏合格的人工智能工人。
此外,合成数据只与原始数据一样好,而真实数据往往充满偏见。因此,当神经网络在有偏差的历史数据上训练时,它们反映了相同的偏差。这通常会导致机器学习模型的输出不准确。
合成数据的用例
合成数据最突出的两个应用案例是自动驾驶汽车和医疗保健。
自动驾驶。到目前为止,自动驾驶汽车是合成数据的最佳用例。汽车制造商必须考虑数以百万计的场景,并收集相应的数据,以制造安全的汽车。这在现实中是不可能实现的,但通过合成数据,组织可以生成任何可以想象的驾驶场景的数百万甚至数十亿种排列,从而达成安全驾驶解决方案。
医疗保健。医疗保健是一个高度监管的行业,有严格的法律管理患者数据的使用。由于合成数据是完全匿名的,不存在重新识别的风险,医疗机构可以轻松地使用它进行科学研究、临床试验和训练医疗行业的ML模型。
合成数据的未来
合成数据生成是创建具有成本效益和高度可伸缩数据的革命性方法。随着人们对合成数据及其各种好处的认识越来越多,越来越多的企业将挖掘其潜力以获得好处。
此外,随着隐私法的收紧,企业将别无选择,只能求助于合成数据。因此,它将继续受到欢迎,直到它完全成为主流。