虽然中国大数据产品和解决方案众多,但是仍然存在很大的挑战。在产品方面,国产大数据产品核心技术仍然没有实现自主,从业人员的开源社区参与度很低;在市场方面,中国大数据产品还需要进一步针对细分市场改进;在人才方面,具备独立工作能力的跨专业复合型人才十分稀缺;在产业方面,围绕大数据、软件、半导体等领域的协同创新机制还需进一步培育。
目前,大数据产品无论是在形态、关系上,还是在应用的领域上,已经发展成为一个庞大而复杂的生态系统。《大数据软件产品研发进展及挑战》从目前大数据的核心技术展开论述,结合当前中国大数据产品的现状,阐述了其所面临的问题和挑战。
大数据产品的核心技术
数据管理和数据分析技术是大数据产品的两大核心技术。
1、数据管理技术
数据是信息的存储,而信息通过媒介传播,大数据概念的诞生,背后反映了新媒介的发展。在数据管理技术的早期,占统治地位的是关系数据库技术。随着新的数字化技术发展,一系列以非关系数据库为基础的大数据技术应运而生,这些数据库被统称为NoSQL数据库。
NoSQL的缩写通常被理解为“不仅是SQL(not only SQL)”,和传统关系数据库相比具有更高的性能、更好的可扩展性和容错性以及应用开发更灵活的优势。公认的一些NoSQL数据库包括:键值数据库、宽列数据库、文档数据库、内容存储、搜索引擎、图数据库、资源描述数据库、时间序列数据库、面向对象的数据库。
NoSQL数据库的蓬勃发展并未宣告传统关系数据库技术的终结,受大量传统关系数据库用户的需求驱动,NewSQL数据库的概念应运而生。主要有3种技术流派:基于NoSQL技术体系发展而来的、基于传统关系数据库引擎改进而来的分布式版本和完全自行研发的产品。
2、大数据分析框架
在大数据存储技术突破的同时,数据分析技术也伴随着发展起来。在互联网环境下,数据分析的工作重点从以往孤立的研究存储如何分布、计算任务如何分布,转向研究如何根据数据的特点有效将计算任务分布到计算节点上,进而直接完成分析。
在这个过程中,开源软件社区起到了关键性的作用,比较有代表性的分析框架如:面向批处理的Hadoop项目,Spark项目,面向流处理的Kafka项目,Storm项目和Flink项目等。
批处理和流处理分析框架的提出,为分布式计算提供了可操作性的途径,改变了以往以单一节点为基础实施数据分析的工作方式。一些分析库,例如机器学习库Mahout、机器学习库MLlib和面向图计算的Pregel、GraphX等,将传统的统计分析、数据挖掘和机器学习的算法进行改进,以便充分发挥分布式计算集群的效能。
近年来,通过深度神经网络算法在图像识别、语音视频和自然语言理解领域大放异彩,谷歌、亚马逊、百度等大型互联网公司纷纷推出自己的深度学习算法库。
中国大数据产品现状
纵观大数据各项关键技术的现状可以看到,现在技术的发展呈现出一片欣欣向荣的局面,从积极的角度看,每项大数据技术各自解决了非常明确的问题。但如何针对某个特定业务需求构建个性化的大数据系统,仍然是各行业面临的挑战,在国内这个局面表现得非常突出。
目前中国市场上的大数据产品可以分为基础类产品、数据管理类产品、分析应用类产品以及解决方案类产品。
中国大数据产品发展面临的挑战
1、开源成为推动大数据核心技术发展的主导力量
从核心技术层面上看,虽然中国的大数据产品繁多,但是仔细观察,这些产品的底层技术仍然是国外开源社区主导。之所以开源会成为大数据技术的发源地,笔者认为,大数据软件不直接面向用户解决问题,在开发人者群体内得到认可是决定其生存发展的重要因素,通过开源拉低门槛,不仅可以限制同类产品低水平竞争,而且可以加快技术在全球范围的开发者社区的传播,进一步促进了其成熟,一旦最终成为事实标准,开发者的使用习惯就固定了。
国内目前的主流观点很难理解开源社区的这种强调免费和运营的文化背后的逻辑,所以从理念上无法接受这种做法,再加上语言和文化差异,就更难融入国际开源社区的工作中,这已经成为中国大数据发展的挑战。
2、具备大数据技术的复合型人才培养困难
人才方面,则是中国发展大数据技术面临的另一个挑战。由于大数据系统自身的复杂性远超以往的软件产品,加上数据的规模日益庞大,大数据系统管理员、大数据工程师和数据科学家等岗位分工愈发精细,国内市场对具备大数据运维能力的人才缺口很大,高端人才目前仍然集中在处于头部的互联网公司,而传统行业需要同时具备行业理解和大数据分析能力、能够独立分析问题人才,很难以通过简单引进方式完成人才队伍建设。国外的顶尖大学已经开始围绕这一市场需求提供教育产品,国内目前还处于起步状态。
3、中国市场对大数据产品的需求差异显著
需求侧角度观察,中国大数据产品的用户对大数据产品的用途理解上仍然存在很大的差距,有的公司在大数据产品的运用水平上已经达到国际先进,可以熟练使用数据技术驱动业务的发展;处于第二梯队的用户,能做到运用大数据技术解决已有的问题;更多行业的企业在采集数据的层面上还处于起步阶段;中国大数据产品的研发者还需要进一步深耕市场,更多关照处于不同发展阶段的细分市场的用户需求。
4、底层技术的协同创新机制尚未形成
从发展路径上看,导致大数据技术持续创新的底层逻辑与芯片、软件技术的突破密切相关。中国大数据核心技术还面临尚未形成跨领域的协同创新的挑战,从体制机制上看半导体、软件、数据及工业之间还是各自为战的状态,并未形成配合的局面。虽然短期内可能可以在大数据核心技术上实现局部性突破,但是长期来看,一旦底层技术随着应用发生变化,例如智能芯片、5G或者操作系统,这些优势也会被迅速瓦解。