在最近一次的AI项目中,我轻松地花费了60%的时间来获取,捕获,清理,导入数据并将其放置在训练系统可以使用的地方。正如很多业内人士所知,人工智能是垃圾输入,垃圾输出的最纯粹的例子。最糟糕的例子是:有时你问到某人最喜欢的食物是什么,直到AI回答了“铁砧”,你才意识到这句话的一样。
那么,可以采取哪些措施来提高AI开发的质量?这是我今天建议构建一流的AI系统的建议:
依靠同行评审的创新。使用AI并经过深思熟虑的研究支持的公司(最好是经过学术界同行评审)显示出最大的进步。但是,这种检查不应随算法而停止。对数据也应进行同样的严格分析。为此,我最近向一家风险投资公司建议,如果对预期投资进行的尽职调查过程显示出算法质量与初创企业使用的数据质量之间存在巨大差异,则应继续投资进行下去。为什么?因为差距是主要的危险信号。
正确组织数据。每天都会产生大量数据。但是要记住,学习数据与生产数据是不同的,并且当你从训练环境过渡到生产环境时,必须稳定数据。因此,利用内聚的内部数据模型至关重要,特别是如果AI是根据最新的“数据驱动”体系结构与“模型驱动”系统构建的。没有凝聚力的系统,您就容易遭受灾难。正如一位首席执行官最近告诉我的那样,必须放弃一年的发展,因为他的公司没有正确配置其训练数据。
使生产环境中的一切自动化。这与组织起来是齐头并进的,但是需要分别进行标注。从研究实验室过渡到生产环境,无论您要构建哪种系统,都需要一个完全自动化的解决方案。大数据和物联网系统成熟的好处之一是,构建这样的解决方案是开发AI系统的相对简单的部分。但是,如果没有完全的自动化,学习、生产中的错误以及对人力资源的压力会使缺陷更加复杂,并使修复工作极为困难。
选择质量胜于数量。如今,数据科学家发现自己处在收集大量数据质量糟糕的情况下。一个例子是临床遗传学,其中用于分析基因序列变异的数据源是如此不一致,以至于已经建立了“数据库数据库”系统来理解数据集。例如,在基因分析系统中,经常使用200多个单独的数据库。银行经常必须至少从15个外部系统中提取数据。没有选择和选择数据的系统性基础,数据中的任何差异都会影响AI系统的效率。
扩展数据(这很难做到)。鉴于我之前对大数据和物联网的评论,您可能会认为扩展数据管理很容易获得。但是你会错的。这是因为一旦清除了前面的四个步骤,您最终可能会得到非常小的相关样本集。在某些应用中,一个小的数据集可能代表一个好的开始。但是,这在AI系统中并不可行。确实,您是否想在小型数据库上接受训练后,将诸如自动驾驶汽车或个性化抗癌药之类的AI程序放到野外?
总体而言,上述注意事项代表了一些基本出发点,可确保你将数据保持在与AI相同的标准下。