本文来自微信公众号“数据猿”,作者/海蒂。
随着互联网技术的高速发展,数据量呈爆发式增长,存储量已经从曾经的TB级别飙升到了PB级别。据IDC报告显示,2010到2020年全球数据量增长超过了50倍。如今,数据成为重要的生产要素之一,大数据时代已经到来。
一方面,大数据领域相关的新兴技术、新业态、新模式不断推动着行业内各种业务的转型,从与信息技术关系较为紧密的电信、金融行业逐渐扩展到各行各业之中。另一方面,全球各国政府也在大力支持大数据行业的发展,通过政策、法案等方式推进自身大数据战略。
因此,近年来,全球大数据产业可谓是发展得如火如荼,已逐渐成为信息技术领域中发展势头及市场关注最为火爆的行业之一。从国际上看,不仅像谷歌、亚马逊等这样的老牌互联网巨头早已布局大数据业务并有所成绩,也有许多新兴大数据企业加入到这个市场竞争,甚至在部分业务上能与巨头们抗衡。
接下来,本文将选取5家国际上具有代表性的大数据企业进行对比分析。选取依据主要基于市场份额与业界关注度,我们选择亚马逊(AWS业务)、谷歌(谷歌云业务)、Snowflake、MongoDB、Splunk这五家企业,来解析国际知名大数据企业的财务表现、业务结构以及发展方向。
收入快速增长,但普遍处于亏损中
纵观全球大数据产业发展历程,可简要分为三个阶段:在20世纪90年代-21世纪初的萌芽阶段,“大数据”的概念在美国出现,随之而来大数据相关基础技术也开始兴起;2010年左右,非结构化数据开始呈指数级增长,业界开始广泛讨论大数据,各国逐渐重视大数据技术的发展并制定发展战略,例如联合国、世界经济论坛等重要组织均发布了大数据主题的报告,全球正式进入大数据时代;2013年之后,大数据技术快速向政府、交通、电信、科技等领域渗透,如今,产业进入新一轮融合升级的发展阶段。
发展至今,从业务端来看,大数据行业的产品和服务包括三方面:大数据硬件、大数据软件、大数据专业服务。沙利文数据显示,2021年全球大数据行业市场中,软件和服务业务占比较高,分别37.9%、37%,硬件占比为25.1%。
如今大数据相关技术已延伸拓展到云计算、大数据分析应用、人工智能等不同技术范畴,目前的大数据企业既涵盖了单纯以大数据技术为核心的科技型企业,也包括数据仓储、数据库等相关领域的企业。
对于亚马逊(AWS业务)、谷歌(谷歌云业务)、Snowflake、MongoDB、Splunk这五家企业而言,它们对大数据相关业务的布局和发展主要集中在上述所提的二、三阶段,并且,各企业聚焦发展的产品和服务也有所差异。亚马逊和谷歌更偏向大数据云计算领域,其余三家则更加聚焦于数据仓库或数据分析等细分领域。
分别来看,首先,亚马逊作为电商巨头在如今的移动互联网时代依旧能维持世界领先水平,很大部分得益于其平台依托于公司成熟的大数据技术,可以说,亚马逊是最早将大数据技术运用到其电商平台的企业之一。亚马逊自2002年推出的Amazon Web Services(下称“AWS”)如今主要提供包括计算、存储、数据库、分析和机器学习等大数据技术相关服务,目前已经成长为市场领导者。
谷歌同样在大数据相关技术的发展和支持下建立了云平台,目前的谷歌云平台能提供网络安全、数据、分析、人工智能和机器学习以及基础设施方面的技术服务。并且,谷歌作为一家建立在云端的公司,公司的数据云将数据湖、数据仓库、数据治理和机器学习统一到一个平台上,可以分析任何云上的数据。
Snowflake主要为企业提供云原生数据仓库,旨在搭建一个基于云服务的新型数据库和数据处理架构,以此满足用户和数据处理层面的需求。MongoDB作为领先通用数据库平台,其在业界最为出名的便是其分布式数据库,在云中、内部或混合环境中均可大规模部署其数据库平台,在市场占有领先份额。Splunk主要关注数据分析业务,据WIkibon的统计,Splunk是目前纯大数据供应商中占据市场份额最大的企业。
接下来,我们将主要针对各企业大数据相关业务的财务情况进行对比。
为了使对比数据统一,接下来将以各企业2019-2021财年大数据领域相关业务财务数据进行对比参考。(注:由于公开披露数据存在局限性,各企业更细分业务数据暂时无法获取,接下来将尽量选择各企业大数据领域相关业务数据。亚马逊选取AWS业绩数据,谷歌选取谷歌云业绩数据,Snowflake、MongoDB、Splunk选取公司整体业绩。)
具体来看,AWS收入包括在全球销售计算、存储、数据库和其他服务所获得的收入。2019-2021财年,AWS实现营收350.26亿美元、453.70亿美元、622.02亿美元;分别实现营业利润为116亿美元、135亿美元、185亿美元。
2019-2021财年谷歌云分别实现营收89.18亿美元、130.59亿美元、192.06亿美元;分别亏损46.45亿美元、56.07亿美元、30.99亿美元,近年亏损幅度有所收窄。
2019-2021财年Snowflake实现营收2.65亿美元、5.92亿美元、12.19亿美元,逐年增长幅度呈倍数增长;分别亏损-2.49亿美元、-5.39亿美元、-6.80亿美元,亏损幅度在逐年扩大。
2019-2021财年Splunk分别实现营收23.59亿美元、22.29亿美元、26.74亿美元;分别实现净利润-3.37亿美元、-9.08亿美元、-13.39亿美元。
2019-2021财年MongoDB分别实现营收4.22亿美元、5.90亿美元、8.74亿美元,逐年稳步上涨;分别实现净利润-1.76亿美元、-2.67亿美元、-3.07亿美元。
统计以上数据发现,上述五家企业或企业部分业务业绩在营收上都是呈现逐年增长的态势,并且增长幅度较大,不过,在盈利规模上,除亚马逊的AWS实现了盈利之外,其余四家企业或企业部分业务还处于常年亏损之中。除了谷歌云的亏损程度有所收窄之外,Snowflake、Splunk、MongoDB这三家处于成长期的大数据企业的亏损程度还在增大。
以下图片也可直观对比各企业营收及利润规模。(AWS与谷歌云由于业务类型相似且规模颇大则放在一起对比,其余三家新兴企业规模放在一起比较。)
以上数据来源:财报
从营收及净利润增速来看,2020-2021财年,AWS营收增速分别为30%、37%,连续两年维持了高水平增长;净利润增速分别实现16.38%、37.04%;谷歌云营收增速为46.43%、47.07%;净利润增速分别为-20.71%、44.72%;Snowflake营收增速为123.40%、105.91%;净利润增速分别为-116.47%、-26.16%;Splunk营收增速为-5.51%、19.96%;净利润增速分别为-169.44%、-47.46%;MongoDB营收增速分别为39.81%、48.14%;净利润增速分别为-51.70%、-14.98%。
可以看到,近年来上述企业营收增速维持在较高水平且逐年扩大,净利润增速均有所好转,亏损企业也逐年收窄了降幅。
从下图可更清晰对比出各企业近两年营收及净利润增速。
数据来源:财报
八仙过海各显神通
一、AWS
从AWS近年的营业收入数据来看,逐年稳步增加,主要由于下游客户需求的不断提高,这主要得益于AWS所提供的云服务可实现费用优化,例如服务成本的压缩,以及价格的灵活,可以有弹性地满足客户的需求,从而降低了客户的整体成本。以上原因驱动了AWS近年来维持了持续的业绩增长。
目前,AWS已经成长为全球公共IaaS(基础设施即服务)和PaaS(平台即服务)服务领域的市场领导者,Synergy Research Group数据显示AWS的市场份额位居第一,且与微软Azure和谷歌云合计占据全球市场份额的65%。
基于AWS技术,亚马逊在大数据领域聚焦的业务主要包括数据仓库RedShift,以增强AWS数据处理能力,还包括大数据处理服务Kinesis,以及拥有50TB存储空间的Snowball,可以使企业和AWS数据中心之间大规模转移数据。以上和大数据技术关系密切的产品和服务也均归属于亚马逊的AWS,虽未披露出细分业务的业绩数据,不过从财报的表述以及AWS整体的业绩数据增长中可知,近年来亚马逊的大数据领域业务整体上实现了不小的增长。
总体来看,财报显示,AWS能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。
此外,在亚马逊的核心电商平台上也运用了不少大数据技术,一方面提升了亚马逊平台的物流系统效率,在商品的入库、调货、存储等方面均实现了降本增效。此外,商品的动态定价、个性化推荐等目前众人熟知的技术均得益于大数据技术的发展和运用,目前大数据技术已经渗入了亚马逊平台的每一个环节,平台的数字化转型持续推进。
在未来的发展战略上,亚马逊表示对于AWS的投入将持续扩大,亚马逊期望通过AWS的扩展,发展各类技术基础设施,以增强客户体验并提高业务流程效率。随着AWS在数据处理能力上,包括数据存储和分析的速度提升的同时实现了成本的降低,再加上无线连接的改善以及人工智能和机器学习的实际应用的推进,将继续改善用户在互联网上的体验。
二、谷歌云
谷歌云收入主要来自于谷歌云平台,涵盖了基础设施、平台和其他服务的收入,还包括Google Workspace,其中包含Gmail、Docs、Drive、Calendar和Meet等企业基于云的通信和协作工具的收入,以及其他企业服务。
从业务技术视角来看,谷歌云平台主要提供网络安全、数据、分析、人工智能和机器学习以及基础设施方面的服务,例如网络安全产品能帮助客户检测、保护和应对广泛的网络安全威胁;数据云能将数据湖、数据仓库、数据治理和机器学习统一到一个平台上,可以分析任何云上的数据;谷歌云平台能提供开放、可靠和可扩展的基础结构,使企业能够在任何地方运行工作负载——在谷歌云、边缘或数据中心。
综合而言,谷歌云在众多解决方案中构建人工智能,客户可以使用这些解决方案开发人工智能驱动的应用程序——包括处理文档、图像和翻译——以更有效地理解和分析数据,从而为各行各业提供定制好的解决方案。由此可见,谷歌在其云业务上更多往大数据技术基础上的人工智能领域发力。
从营收数据来看,近年谷歌云持续增长主要得益于谷歌云的基础设施和平台服务业务,这是谷歌云平台增长的最大驱动力。不过,谷歌也表示由于持续对谷歌云等的大量投资而导致其营业利润率面临较大压力,从上述净利润数据可知,目前谷歌云还未实现盈利,处于较大亏损状态之中。
聚焦到谷歌云的大数据业务,具体来看,目前关注度较高的有Google推出的数据分析软件和服务——BigQuery,这也是谷歌云平台的扩展,BigQuery可以在日常数据集成和分析过程中获得更多的功能和优势,例如安全控制、性能、可扩展性以及数据控制。
值得一提的是,谷歌于2022年9月份完成了对Mandiant的收购,Mandiant是一家私人网络安全技术公司,主要提供网络防御解决方案,由此可见,Mandiant的动态网络防御、威胁情报和事件响应服务有望增强谷歌云的安全产品。
对于谷歌云在大数据领域的增长战略,可以看到不论是谷歌的新一代搜索引擎将持续深入大数据分析技术,还是支持大数据集互动分析的BigTable等等,谷歌在大数据平台的建构和发展始终在不断推进,与AWS一样在传统业务的基础上去引入大数据技术,实现更快更准确的数据分析,以扩展更多基于新技术发展的业务,这也意味着谷歌云与AWS有着类似的背景,在市场上也是互为竞争的两大巨头。
三、Snowflake
Snowflake的业务主要包括数据仓库、数据湖、数据工程、数据科学、数据应用程序开发和数据共享,Snowflake提供的是一个基于云的数据平台,使客户能够整合数据,以构建数据驱动的应用程序,并共享数据。Snowflake另一重点业务是为垂直行业定制解决方案,推出了金融服务数据云、媒体数据云、医疗保健和生命科学数据云以及零售数据云。不过在收入结构上,Snowflake仅分为了产品收入和服务收入两大类别,2020-2021财年,Snoeflake产品收入占比均为94%,专业服务及其他收入占比均为6%。
数据来源:公司财报
具体从业务角度而言,数据仓库主要提供报告和分析;数据湖可以充当中央数据存储库,例如可以在云中构建一个现代化的可扩展数据湖。利用云中数据仓库的可伸缩性、安全性和分析能力,将数据整合到一个集中的位置,从而实现对所有数据的实时分析。客户可以依赖这个集中的数据存储库来处理各种用例;
数据工程可以使数据工程师、IT部门、数据科学团队和业务分析团队能够使用SQL或其他编程语言有效地构建和管理数据管道,将原始数据转换为可操作的数据,以实现业务洞察;数据科学涉及大规模转换原始数据,以支持高级分析,例如高级统计分析和机器学习技术;
数据应用开发可以使现有的应用程序具有报告和分析功能;数据共享则能够安全地共享、连接、协作、货币化和获取实时数据集。
值得一提的是,Snowflake对于数据云的发展极为重视,其认为数据云可以使企业毫不费力地发现、访问、获得并共享来自各种来源的数据。企业可以共享和提供对彼此数据的访问,用更多的数据集增强数据科学和机器学习算法。对此,Snowflake已经在不同的内部部署系统、基础架构云和应用程序云上投资了数十亿美元。
这些投入自然也获得了不少成绩,如今Snowflake的平台已经集成并优化了结构化、半结构化和非结构化数据,可以处理不同的数据类型。并且,公司利用公共云的可伸缩性和性能来支持不断增长的数据集,实现了数据量的大规模可伸缩性。此外,其平台可在全球31个区域部署的三个主要公共云上使用,实现了下游客户的不同需求。
因此,得益于强大的网络效应,随着Snowflake将其数据仓库从基于云的存储库和本地数据中心转移到数据云,其数据云将继续增长。
对于数据云未来的发展战略,Snowflake主要从以下几方面入手。一方面是对技术和平台的创新,加大研发投入,提升差异化,对于此,例如Snowflake在2021年推出了Snowpark,引入了对非结构化数据的支持,从而可以扩展公司平台的使用范围。
另一方面,随着全球企业越来越多地采用公有云,下游市场需求也在不断扩大,对此,Snowflake持续扩大其业务延伸区域,尝试将公司平台扩展到北美以外的地区。并且,由于Snowflake平台为企业共享、协作和连接数据提供了一种创新方式,包括通过数据市场,对此其计划继续投资,增加新的客户、合作伙伴、数据提供商和数据消费者,并提高市场对数据云的认识。
可见,Snowflake未来的业务规划主要集中在数据云上。
四、MongoDB
MongoDB是一家通用数据库平台,企业可以在云中、内部或混合环境中大规模部署其数据库平台。不同于上述企业更多聚焦于数据分析、计算等大数据业务,MongoDB则更多聚焦于数据库业务。
数据显示,MongoDB的收入95%以上都来源于产品的订阅销售。分开来看,主要产品包括MongoDB Atlas、MongoDB EnterpriseAdvanced,2020-2021财年MongoDB Atlas收入占总收入的46%、56%,MongoDB EnterpriseAdvanced收入占总收入的44%、35%,可以看出,MongoDB Atlas收入占比逐年上涨,MongoDB EnterpriseAdvanced收入占比则是有所下降。
数据来源:财报
具体而言,MongoDB Atlas是MongoDB托管的多云数据库即服务(“DBaas”)产品,其中包括全面的基础设施和管理,公司在云中运行和管理这些基础设施,财报显示MongoDB Atlas自2016年6月推出以来就持续增长,目前营收占比已过半,为公司最核心产品。
MongoDB EnterpriseAdvanced则是MongoDB专为企业提供的专有商业数据库服务器,可以在云中、内部或混合环境中运行。除此之外,MongoDB也提供数据库的免费下载版本——Community Server,主要是为了拓宽市场进行引流。
对于MongoDB自身未来的增长战略,其主要从以下几方面下手:
一方面是扩大自身的影响力,致力于培养MongoDB开发者社区,以提高开发人员对公司平台的认识、参与和采用,并且提高公司的品牌知名度吸引新客户的合作。截至2022年1月31日,MongoDB大学注册人数超过150万。
其次,值得一提的是,MongoDB为了扩大在中国的影响力,2019年10月与阿里云建立合作伙伴关系,以提供授权的MongoDB-as-a-Service解决方案,使阿里云的客户可以在全球数据中心使用该托管产品。2021年2月与腾讯云建立全球合作伙伴关系,使客户可以轻松地在腾讯的云基础设施中使用MongoDB-as-a-service,从而扩大了在中国的业务范围。
另一方面,从业务端来看,MongoDB地图集是公司目前着重发展的一项托管多云产品,也是在MongoDB Atlas基础上扩展的新功能。为了加快DBaas产品的采用,2017年公司引入了一些工具,可以轻松地将社区服务器的现有用户迁移到MongoDB Atlas。MongoDB还扩展了MongoDB Atlas的介绍版产品,即仅带有部分功能的免费版本,它提供了有限的处理能力和存储空间,以便在开发人员中推动MongoDB Atlas的使用。
目前,MongoDB Atlas Free Tier产品现已在所有三大云服务提供商(Amazon Web Services(“AWS”)、谷歌云平台(“GCP”)和微软Azure上可用。未来,MongoDB将持续围绕核心产品MongoDB Atlas进行业务的扩展。
五、Splunk
Splunk主要业务可以分别三部分:第一是Splunk平台,可以从几乎任何来源获取、管理和分析数据;第二是Splunk解决方案,主要是利用Splunk平台提供的应用程序产品;最后是客户和合作伙伴解决方案。
从收入结构来看,Splunk收入分为云服务收入、许可证收入以及维修和服务收入。Splunk的收入组合已经从许可证销售转向云服务交付,预计它未来还将继续向云服务倾斜。财报披露数据显示,2019-2021财年云服务收入占比分别为13.2%、24.9%、35.3%;许可证收入分别为58.2%、43.6%、39.5%,逐年下滑;维修和服务收入分别为28.5%、31.6%、25.2%。
数据来源:财报
云服务的强劲增长还可以从另一运营指标上看出,财报显示,截至2021-2022年1月31号的财年报告,Splunk云年度经常性收入(“云ARR”)分别为8.1亿美元、23.65亿美元,占年度经常性总收入(“总ARR”)的60.63%、75.87%。(注:云ARR表示在报告期结束时云服务合同的年度收入运行率。ARR总额表示在报告期结束时,云服务、定期许可证和维护合同的年度收入运行率。)由此也可以看出,Splunk云服务业务的增长较为强劲。
单位:百万美元
具体来看,Splunk产品组合以Splunk平台为基础,这是一个可扩展的实时数据平台,包括数据收集,数据索引,数据分析,机器学习,数据监视和数据管理等诸多功能。Splunk平台功能的不同组合在Splunk Cloud以及Splunk Enterprise和数据流处理器许可产品中作为服务提供。
Splunk平台的主要功能包括可扩展的数据收集和检测,包括应用程序编程接口(“API”)、端点和代理,它们可以从一组广泛的硬件和软件源获取数据。此外,Splunk是OpenTelemetry的主要贡献者,OpenTelemetry是由Cloud Native Computing Foundation托管的一个广泛使用的开源项目。
Splunk平台还可以在公司专有的、高规模的索引和外部数据存储中,在运动和静止状态下实时处理和分析非常大量的数据。
此外,Splunk平台还包括广泛的机器学习功能,包括针对常见数据类型优化的开箱即用算法,以及允许数据科学家针对客户数据开发和部署定制算法和模型的用例和接口。
Splunk安全解决方案则是帮助网络安全团队简化安全操作工作流程,加速威胁检测和响应,增强威胁可见性,并通过机器学习和自动化扩展资源以提高分析人员的生产力。Splunk安全产品建立在Splunk平台上,包括Splunk Enterprise安全、Splunk用户行为分析和Splunk安全编排和自动化(“Splunk Soar”),并且可以作为云服务和许可证产品的组合使用,详细包括调查和取证、安全信息和事件管理及安全分析以及自动化和编排。
Splunk未来的增长战略,主要聚焦于平台的云转型上。一方面,Splunk云服务和许可证预订中,云服务占了大部分。最重要的是,在使用云服务产品时,向客户交付和使用新功能的速度会加快,Splunk将继续大力投资于差异化云服务产品;以及投资于许可证产品,以支持独立消费和跨越客户现场和云环境的混合Splunk部署。Splunk预计,公司的云服务产品将继续成为Splunk重要增长来源。
市场高速增长,技术融合创新
综合分析以上企业大数据相关业务可知,目前聚焦在大数据领域的业务更多在于数据分析、数据管理、数据库、云架构等方面,且市场还在不断拓展中。除了传统的以基础设施和硬件为主的上游产业、以数据处理服务和解决方案为主的中游产业,以大数据应用为主的下游产业之外,目前也越来越向外延伸出更多创新领域。
并且,随着大数据产业在市场需求增长下不断发展,越来越成为全球信息产业的中坚力量,市场规模也在逐年扩大。据弗若斯特沙利文报告显示,2022年全球大数据市场规模预计为718亿美元,其中中国大数据市场占全球比例为22%。
报告还显示,受益于下游政企单位分析数据的需求扩张,2015-2022年全球大数据市场规模CAGR约为18%,2023年全球大数据市场规模有望超过750亿美元。Wikibon报告数据预测2025年全球大数据硬件、软件和服务整体市场规模将达到920亿美元。
此外,从技术发展角度来看,数据存储与计算、数据管理、数据流通、数据应用、数据安全是大数据产业重点发展的五大核心领域。从流程上看,数据源通过数据存储与计算实现压缩和初步加工,通过数据管理提升质量,通过数据流通配置给其他相关主体,通过数据应用直接释放价值,并由数据安全技术进行全过程的安全保障。
在数据存储与计算领域,目前已演化出数据库、大数据平台、实时计算等成熟技术框架,发展方向聚焦在持续提升高效存储和实时计算上;数据管理聚焦在促进各行业大规模实现全域数据管理上;数据流通聚焦在创新流通技术以实现数据流通过程中安全与效率的平衡;数据应用领域则聚焦变革业务模式、优化相关技术上;数据安全领域聚焦在风险管理的智能化发展。