根据Gartner的一项调查,到2020年底,全球48%的CIO将部署AI。尽管人们对AI和ML持乐观态度,但我仍然持怀疑态度。在可以预见的未来,我认为没有任何发明会真正导致生产率和生活水平发生巨大变化。等待AI/ML格局发生重大变化的企业将错过一些小的发展。
以下是一些趋势,目前可能尚未引起注意,但长期来看会产生重大影响:
1、专用硬件和云服务提供商正在改变格局
对于企业而言,热议内部部署和云计算的日子已经一去不复返了。今天,即使是保守的公司也正在谈论云和开源。这也难怪云平台正在改进其产品以包括AI / ML服务。
随着ML解决方案的要求越来越高,CPU和RAM的数量不再是加速或扩展的唯一方法。针对算法优化的专用硬件比以往任何时候都要多,无论是GPU、TPU还是“晶圆级引擎”。行业也向着使用定制化程度更高的硬件解决AI / ML问题的转变将加速。企业的CPU将主要用于解决最基本的问题。使用ML / AI的通用计算基础架构面临被淘汰的风险,对于企业而言这个原因就足以促使其切换到云平台。
专用芯片和硬件的增加也将促使基于这些硬件算法的改进。尽管新的硬件/芯片可能允许使用以前被认为是慢或者不可能的AI / ML解决方案,但仍需要重写许多当前为通用硬件提供动力的开源工具,以便从新的芯片中受益。最近的算法改进示例包括Sideways,通过并行化训练步骤来加快DL训练;以及Reformer,用于优化内存使用和计算能力。
2、针对隐私及其周围出现的创新解决方案
我还预见到,对数据隐私的关注将逐渐转向对ML模型隐私的关注。如今AI隐私的关注重点放在了如何收集数据以及如何使用数据上。但是ML模型并不是真正的黑匣子。可以根据一段时间内的输出推断模型输入,这将导致隐私泄露。数据和模型隐私方面的挑战将迫使企业采用联邦学习解决方案。
去年,Google发布了TensorFlow Privacy,该框架在差异化的隐私原理下工作,并且添加噪声以使输入模糊不清。通过联邦学习,用户的数据永远不会离开其设备/机器。这些机器学习模型足够智能,并且只需要占用很小的内存,可以在智能手机上运行并从本地数据中学习。
通常,使用用户提供的数据是为了提供更加个性化的体验。例如,Google Mail基于用户的键入行为来提供自动建议。数据及模型如何才能不仅有助于改善个人体验,还可以帮助更广泛的人群呢?人们愿意分享他们训练好的模型(而非数据)以造福他人吗?
这里有一个有趣的商机:向用户支付模型参数费用,这些参数来自对本地设备上数据的训练,并使用本地计算能力来训练模型(例如,在手机相对空闲时)。
3、稳健的模型部署变得至关重要
当前,企业正在努力生产可扩展性和可靠性兼具的模型。编写模型的人员不一定考虑到模型安全性以及性能,并且也不一定是模型部署的专家。一旦机器学习模型成为主流和关键应用程序不可或缺的一部分,这将不可避免地导致对于主流应用程序服务攻击的模型。
我们已经看到了一些技术不高的例子,例如:使特斯拉加速而不是减速、切换车道、突然停车或在没有合适触发的情况下打开雨刮器。想像一下此类攻击可能对高度依赖AI / ML的金融系统,医疗设备等产生的影响会如何?
当前,对抗性攻击仅限于学术界,以更好地了解模型的含义。但是在不久的将来,对模型的攻击将是“牟取暴利”,这将由想要展示其性能有所提高的竞争对手或可能会勒索您的恶意黑客驱使。例如,当今新的网络安全工具依靠AI/ML来识别诸如网络入侵和病毒之类的威胁。如果能够触发虚假威胁警报要怎么办?识别真实与虚假警报的相关成本是多少?
为了应对此类威胁,企业需要更加重视模型验证以确保其稳健性。一些企业已经在使用对抗性网络来测试深度神经网络。如今,我们会聘请外部专家来审核网络安全性,以及物理安全性等。与此相似,我们将看到模型测试和模型安全专家的新市场的出现,他们将进行测试、认证,并可能承担模型故障的某些责任。
接下来怎么样?
渴望通过AI投资来实现增长的企业需要重新审视对其数据的影响。我在上面概述的趋势强调了企业在生产中围绕其AI / ML解决方案实施强大治理的必要性。但也要注意,假设您的AI / ML模型是稳健的,也可能是冒险的,尤其是当它们给平台提供商留有摆布可能的时候。因此,小的需求是让内部专家了解模型为何起作用或不起作用。这将是需要保持的趋势。