从硅谷大数据公司的势力更替看数据分析的未来

用户投稿
爱分析
随着数字化的深入,Hadoop架构的分析平台在成本和业务需求上越来越不能适应企业的要求,因此国内外领先的大数据公司都在转向云原生。

随着数字化的深入,Hadoop架构的分析平台在成本和业务需求上越来越不能适应企业的要求,因此国内外领先的大数据公司都在转向云原生。云原生架构由于具有弹性伸缩、低成本、敏捷性的优势,正在逐步取代Hadoop,成为新一代数据分析平台的基础。而新一代的数据分析平台也将具备云原生、存算分离、容器化、自动化、湖仓融合、订阅制等特征。区别于美国市场,中国市场的私有云会与公有云共同发力,企业应该看清趋势,尽早做好下一代数据平台架构的选型和搭建。

技术的发展都有着自己的生命周期。在技术从起步到成长,再到成熟、衰退,最终被新技术所取代的过程中,商业化公司一直起到了重要的推动作用,但它们也终将因为技术的迭代而改变自身的走向。大数据行业近期发生的两件大事,印证了数据分析领域的技术也遵循着这样的演变规律:两家硅谷大数据公司分别IPO和私有化。

6月25日,Apache Kafka商业化公司Confluent正式登陆纳斯达克,首日开涨25%,市值超过110亿美元。Confluent成立于2014年,其提供的是一个实时事件流平台,具有高吞吐、低延时、高可用和数据持久性的能力。公司在2018年推出云原生版本产品Confluent Cloud,并将云原生作为公司的主要战略。

而在此前的6月初,Cloudera却被私有化退市,这一消息令人唏嘘。因为Cloudera从2008年成立至今一直是Hadoop生态的领导者,其开发的产品以及背后基于Hadoop开源技术的生态曾是企业首选的大数据分析解决方案。但Cloudera自2017年5月上市以来一直表现不佳,先后经历过股价腰斩,与业内第二名Hortonworks的合并抱团,以及现在的私有化退市,也代表了Hadoop的颓势。

作为同是出自Apache的顶级项目,为何Confluent和Cloudera却在同一时间在资本市场走向了完全相反的方向?Hadoop为何走向衰落,数据分析技术的未来又会走向何方?爱分析基于对相关领域的持续研究和积累,以及对业内专家的访谈,尝试对这两起事件折射出的数据分析技术的演进趋势做出分析解读。

成本与业务需求双重因素驱动下,Hadoop从兴起走向衰落

从企业用户的视角,成本和业务需求实现是技术选型的核心考量。而这两个因素在不同时代的演变,既造就了Hadoop的兴起,也解释了现在Hadoop为何开始走向衰落。

在数据分析技术的演进过程中,成本是首要驱动因素。

在2004年Hadoop诞生之前的近20年中,数据分析技术一直被大规模并行处理(MPP)架构所主导。以Teradata为代表的MPP数仓产品采用基于专有物理硬件的软硬件一体机架构,因此企业在扩展存储和计算资源时需要付出高昂的成本。随着大数据时代的到来,数据量不断加大,企业越来越不堪成本支出的重负,纷纷转向了在软件层面开源免费,硬件层面可以采用廉价PC服务器的Hadoop架构。

但Hadoop架构在成本上对客户而言依然不是最优解。在数字化应用已经无所不在的今天,企业对存储和计算资源都提出了更高的要求。Hadoop没能进一步解决算力和资源的优化问题,也在扩容成本和运维成本上逐渐不能适应企业要求。

在扩容成本方面,Hadoop虽然在软件架构层面实现了计算与存储的分离,但其在硬件层面仍然基于无共享架构,计算和存储资源是耦合的。然而今天企业在计算和存储资源上的扩展需求往往并不同步:计算资源通常仅需在负载高峰期进行扩展,而存储资源的扩展一般是长期、线性的过程。企业无法按需独立扩展计算和存储资源,必然带来资源的浪费。此外,Hadoop的扩容时间成本也非常高,通常Hadoop集群扩容一倍,企业仅在硬件的采购和部署上花费的时间就需要半年或以上。

在运维成本方面,由于Hadoop的解决方案通常是从其生态中的数百个开源项目中选择一堆技术组件组合起来实现相关功能,这样的体系非常复杂,且组件间的耦合度非常高。随着Hadoop生态技术组件越来越庞杂,组件之间的耦合性和差异性要求开发和运维人员具备全栈能力,给企业带来了不菲的运维成本。

成本因素之外,业务需求的变化则在另一个层面驱动了数据分析技术的迭代。

在数仓时代,企业的数据分析需求以处理结构化数据、为业务人员作报表应用为主,MPP架构在当时能够很好地满足这些需求。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论