据中科院计算所副所长、工程实验室副主任程学旗介绍,实验室宗旨在于突破大数据分析技术瓶颈,研制第三代大数据分析软件栈;在科学发现、智慧城市、社会安全形成重要应用,促成大数据价值落地;结合行业和产业建立示范基地,推动我国大数据分析应用生态发展。
各个击破,克服技术瓶颈
“大数据”概念被提出不过十年时间,而今却已经被视为推动新一轮工业革命的力量,更是造就了一轮新的“数据经济”。在中国,“大数据”得天独厚,为中国市场带来了无数新的发展机会。
原因在于,中国有着全球最大的互联网和移动联网用户群体,CNNIC数据显示,截至2016年12月,中国网民规模已达7.31亿,手机网民达到6.95亿,这让中国成为拥有数据量最为庞大的国家。
2015年8月31日,国务院印发了促进大数据发展的行动纲,将大数据提升到战略高度,更是将大数据推到了风口浪尖。如今,中国互联网、金融、政府、医疗等诸多行业都开始对大数据的探索和应用。
虽然大数据在中国获得高度重视,但分析技术上的瓶颈制约了大数据的挖掘和应用,如分析程度浅、处理效率低、使用门槛高等等。实验室的宗旨之一就是要打破大数据分析技术瓶颈,研制“第三代大数据分析软件栈”。
大数据分析系统国家工程实验室主任李国杰院士解释说,第一代数据分析平台是以采用数据库处理的结构化数据分析平台;第二代是以Hadoop、Spark为代表的非结构化大数据平台;而实验室所要研制的是第三代、即新一代的大数据分析平台,以解决大数据分析更加多样性、更加不确定、动态性更强、响应时间要求更快等难题。
程学旗表示,针对当前大数据分析技术存在的三大瓶颈,实验室已经分别确立了研究方向。
其一,针对大数据分析技术分析程度浅,大数据分析处理的深度与智能化程度不足的难题,实验室将结合机器学习、认知计算和知识工程,研制深度智能的大数据分析系列算法,提高大数据的价值利用率。
其二,针对大数据分析技术处理效率低,分析计算不贯通,数据模型参数复杂的难题,实验室将研制智能化、软硬件一体化的弹性流式分析引擎,提高复杂大数据分析的时效性和规模可扩展性。
其三,针对大数据分析技术使用门槛高,算法易用性差,分析处理链路缺失的难题,实验室将研制全链路大数据分析软件栈和分层开放编程语言,极大程度提升大数据分析技术的易用性和工程化能力。
推动落地,科研民生并重
时下,“大数据”的热度还在不断攀升,即使是普通百姓,也能从各种途径听到“大数据”这个词汇。但是,对于大部分人来说,“大数据”好像距离很遥远,和我们的实际生活并没有直接的联系。
对此,曙光信息产业股份有限公司高级副总裁聂华认为,“大数据”的价值要经历量变到质变的过程,数据价值才能逐渐释放出来。目前大数据已经释放出来的能量,大数据对我们决策的影响,对我们未来生产生活当中已经释放出来的价值,现在很多部门和很多领域当中已经看到了。
中国科学院大学经济与管理学院教授石勇举例说,目前银行、医疗、电商等多个行业都已经应用了大数据技术,如银行贷款数据评分、小额贷款业务、医疗APP等,大数据技术实际上已经在“幕后”影响着我们的生活。
“大数据”要用起来才有意义,所以,大数据的应用和生态非常关键,“大数据”不应“飘在天上”,而是要不断落地,才能让更多的人享受到大数据所带来的便利。
对此,程学旗表示,除了突破技术瓶颈,国家工程实验室还希望在大数据的应用层面上形成重要应用,包括在科学发现、智慧城市、政务、社会安全等方面。同时希望利用国家工程实验室与行业、产业和区域建示范基地的合作,推动国家大数据分析的技术能力和工程化应用能力,最终把大数据价值充分挖掘出来。
首先,国家工程实验室将基于科学院的优势,链接国家的重大的科学装置,支持大数据驱动的科研创新和重大的科学发现,包括天文望远镜、中位子实验、暗物质、量子分析等等所产生的大量数据,工程实验室将提供平台支撑、分析方法支撑,最终驱动国家在科研领域、科学领域的科学发现。
第二方面,结合当前各级政府大数据发展战略,建立覆盖最广的政务大数据应用和服务环境,开展智慧养老、智慧政务、社保金融分析、公共安全管理、精准扶贫等重点示范应用。
产学研用,共建良性生态
据了解,大数据分析系统国家工程实验室是由中科院计算所牵头,此外还有四家共建单位:中国科学院大学、中科院计算机信息网络中心、曙光公司、国创科视。四家共建单位分别将建立大数据分析系统国家工程实验室下属的二级实验室,分别是大数据分析和智能知识实验室、科学大数据分析系统实验室,政府大数据分析系统实验室和智慧城市大数据分析系统实验室。
中科院计算所在大数据分析方向上从新一代体系架构、大数据分析系统到智能分析算法都具有深厚的技术积累。四家共建单位也各具特点,在大数据领域都有着独特的优势。李国杰院士指出,这样的组合能够综合产学研用,实现优势互补,形成完整的工程创新体系。
其中,国科大在大数据挖掘和知识管理领域独具优势;中科院计算机网络信息中心是我国最大的科学大数据管理与服务机构;曙光公司在我国率先提出“城市云”建设理念并成为中国“城市云”的定义者和建设者;国创科视在城市视频大数据和时空大数据领域有着丰富的积累。
在四家共建单位中,曙光公司作为以完善的IT基础设施供应商发展起来的大数据综合服务商,拥全套硬件产品体系,为数据汇集和流通提供了多样化载体;同时,曙光自主研制的XData大数据平台,可以充分融合各种数据资源并进行全方位多层次的智能分析;此外,经过近十年的精耕细作,曙光已经在研发、气象、政府、医疗、广电、金融和交通等行业推出了一系列非常成熟的解决方案,积累了应对不同规模、不同类型数据处理的创新技术。
中科院计算所所长孙凝晖表示,以前中科院计算所和这些单位在大数据领域做了很多工作,完成了国家很多纵向的重大任务,但是一直缺乏一个系统的平台。国家工程实验室给予这些单位很好的合作机会,能够将过去大数据的研究成果汇聚成平台,利用平台再服务国家的重大任务,以及在金融、智慧城市和科学大数据的应用,以形成非常好的大数据生态。
程学旗介绍说,国家工程实验室希望构建大数据开源社区以及一系列为社会提供开源大数据分析的工具、算法,同时为社会输送大数据分析的人才和相关标准体系。同时也将配合发改委大的战略,包括大数据国家实验区、大数据重大工程承担重大任务,进一步推动全行业大数据生态的发展,这是国家工程实验室的最终目标。