我在伦敦参加了几天O 'Reilly的Strata数据大会,对大数据、机器学习(ML)和人工智能的发展方向有了更深刻的认识。这些领域在过去5年中发展非常迅速,新技术、新流程和新应用改变了企业管理其数据的方式。
Strata大会是很好的晴雨表,让我们了解了大数据处理目前的最新发展水平,以及开发人员和用户关注哪些问题。从这次活动中,我发现了8个关键因素。
1、5G将刺激机器学习的增长,产生新的应用和服务
我和O'Reilly的首席数据科学家兼Strata组织者Ben Lorica讨论过这个问题,他认为5G极大的带宽和灵活性,以及边缘计算是关键的推动因素。他指出,中国在这项技术方面是全球领先的力量,而很多企业仍在为他们正在进行的所有5G投资制定商业模式。
2、改变数据科学家的技能
谷歌云的首席决策科学家Cassie Kozyrkov在她的演讲中指出,随着机器学习工具的用户体验越来越好,所需的技能将变得不太技术化,而更关注的是数据科学家打破孤岛、更能融入到业务中的能力上。
3、线上和线下环境的融合
中国的阿里巴巴电子商务集团(Alibaba Ecommerce Group)和亚马逊正在尝试自己的实体店,而现实中的实体店还在不断适应新的网络世界。在我看来,电子商务集团的线下行动过于积极,而实体零售商的线上投资过于保守。要完全实现这些还有很长的路要走,但是像亚马逊和阿里巴巴这样的企业在大规模管理数据方面的专长,却是他们的关键优势所在。
4、内部数据平台成为增长和创新的关键
Lyft和BMW数据科学家的报告展示了将数据平台置于新产品开发和业务流程管理的中心是怎样推动创新的。虽然这对于像Lyft这样的数字化原生企业来说是自然而然的事情,但随着数据生成传感器嵌入到产品中,传统的工业企业也不得不参与其中。
5、开放数据应像开源软件一样受到重视
我们都知道,很多大数据和机器学习产品和服务之所以能够兴起是因为背后有开源软件。很多年前就有了成熟的开源商业和技术案例。然而,人们很少关注开放数据相对于创新的重要性。算法的输出仅取决于所输入的数据质量。
全球最大的开放式企业数据库OpenCorporations的联合创始人兼首席执行官Chris Taggart非常重视企业在依赖专有数据集时遇到的问题,在这些数据集中,数据源可能是粗略的,并且元数据不会在产品之间共享。开放数据更透明,不会使得企业只能选择某一昂贵的商业合同,而企业却很难放弃这些合同。
6、采集和管理实时数据的重要性
虽然人工智能和机器学习项目并不总是需要实时或者接近实时的数据,但能够构建可以处理数据的系统将是一种宝贵的竞争优势。随着数据驱动的决策越来越深入到企业内部,竞争优势有时会转移到那些能够更快响应事件的企业。亚马逊网络服务在这方面的规模和广度表明,能够实现这一点的工具变得越来越容易使用,也更便宜。
7、法律和道德问题开始改变企业的创新方式
牛津大学的Sandra Wachter博士在一次演讲中强调了一个问题,而我认为,在未来一两年内,人们会越来越关注这个问题。她指出,随着GDPR等倡议的生效,很多企业现在意识到了有责任去保护个人数据。然而,一个讨论较少、也是监管机构仍在努力解决的问题是,嵌入式算法基于所处理的数据而做出推断和决策。
至少在欧洲,我们有权了解我们掌握的数据,并在不同程度上纠正或者删除这些数据。然而,对于信用检查和健康保险等领域的这些数据,企业可能会根据数据自动地对我们做出假设,而我们却不能去改变这些假设。
8、“凡有的,还要赐给他”
会议接近尾声时,我开始思考,规模较小的公司并没有互联网巨头或者全球FMCG公司的海量数据集,这些小公司怎样在大数据和算法决策时代参与竞争呢?利用网上服务的网络效应巩固大公司的地位,形成良性创新循环,但这存在风险,或许我们已经看到了这种风险。
然而,正如Unravel数据系统公司联合创始人兼首席技术官Shivnath Babu向我指出的那样,互联网和应用程序经济仍然能够允许小公司利用其应用程序和网上活动中的数据,并对市场产生影响。正是因为如此,还有来自公共数据源的开放数据的兴起,将为新一代初创公司打下基础,让他们能够像20年前的谷歌、脸书和亚马逊那样,去改变世界。
作者:Martin De Saulles 博士是一位作家和学者,专门研究并撰写数据驱动的创新技术和物联网。
编译:Charles
原文网址:https://www.cio.com/article/3393162/8-factors-shaping-the-future-of-big-data-machine-learning-and-ai.html