近日,中国科学院A类战略性先导科技专项“地球大数据科学工程”正式启动。该专项以建成具有全球影响力的国际地球大数据科学中心为目标,聚焦基于空间技术生成的海量对地观测数据,致力于推动并实现地球大数据创新、重大科学发现和一站式全方位宏观决策支持。
地球大数据将如何改变科研与生活?为什么地球大数据离不开空间技术支持?用好地球大数据,还有哪些瓶颈亟待突破?
地球科学发展需要大数据助力
许多人都曾有过这样的经历:打开购物网站,浏览“货架”,轻点鼠标将心仪的商品添加进购物车,结算时,总能在页面下方发现其他“你可能还喜欢”的产品信息,再次撩拨起那颗控制不住想要“买买买”的心。
网站为何能轻松“猜”中你的喜好?这就是大数据分析得出的结果。
“并非所有海量庞杂的信息都有资格被称为大数据。”河北地质大学大数据研究方向教授李文斌说,通俗点讲,大数据一般具有“5V”特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)和真实性(Veracity),“就像我校有史以来全部学生的课业成绩,虽然体量较大,但过于单一、缺少联系,不具备大数据的特点,并不能算作大数据。”
大数据“入侵”我们生活的速度有多快?
19世纪70年代以来,随着第二次工业革命的爆发,各种新技术、新发明层出不穷,以文字为载体的数据量大约每10年翻一番;从工业化时代进入到信息化时代后,信息技术革命以前所未有的方式对社会、科技、经济变革的发展起着决定作用,数据量以每3年翻一番的速度持续增长;近十几年来,随着计算机技术、物联网、云计算被广泛应用,更使得数据存储量、规模、种类等飞速增长。
“曾有媒体报道称,在整个人类文明所获得的全部数据中,有90%是过去几年内产生的。”李文斌说,目前,全球数据总量每年都在倍增,预计到2025年将达到163ZB,届时,我国的数据量将约占全球数据总量的20%,“可以说,我们已经进入了大数据时代。”
身处这样的时代,大数据在深刻影响人们生活的同时,也在改变着人们认识和研究世界的方法。如今,大数据技术与应用已成为继实验、观测、理论和计算模式后,数据密集型科学范式的典型代表,正在带来科研方法论的创新。
对地球科学来说,这一改变带来的影响尤为深刻。
“地球科学,通俗点讲,就是研究地球的一切科学。它范围很广,可以涵盖地质学、海洋学、气象学、天文学等诸多领域。”李文斌说,尽管名字很高大上,地球科学距离我们的生活却并不远,“比如气候变化、自然灾害、资源短缺、生态退化、水土污染、大气雾霾等,既是时下影响经济社会发展的重大问题,也是地球科学领域的热门话题。”
过去在这一领域,人们所关注的数据要么是数据来源区域化、要么是数据形式单一化,而且数据体量也较小。现在,人们正在逐步实现“将地球装进计算机”。
以青藏高原研究为例,涉及多个科学领域,比如地球内部结构、地球物理边界场响应、地质构造格局、地球化学与岩浆岩涌现、地理与地貌、动物与植物、冰川与土壤、资源与能源、火山与地震灾害、大气环流与气候变化,以及人文、经济、民族和社会变迁等。
“对这些领域的研究中不断产生的数据是交叉的、海量的,如果能有效建立起化探、物探、遥感等各种地球空间数据间的联系,我们就能用计算机模拟出一个真实的青藏高原,那么,关于它的‘昨天’和‘明天’就能清晰地呈现在我们眼前,从而带来全新的研究对象、手段和结果。”李文斌说,曾经,孤立使用单一特定领域的已有挖掘分析理论和方法,已经很难有效推动大的科学发现;如今,通过多学科深度交叉联合,开展系统性和综合性研究,大数据能提供新的技术手段、创新视角,促进新的科研范式的形成。
地球大数据离不开空间技术支持
按计划,此次中国科学院启动的“地球大数据科学工程”专项为期5年(一期建设期),共设置地球大数据科学工程总体、地球科学小卫星、大数据云平台、数字“一带一路”、全景美丽中国、生物多样性与生态安全、三维信息海洋、时空三极环境、数字地球科学平台9个项目。
“数字‘一带一路’的研究内容非常丰富,涉及的领域包括环境变化、自然灾害、世界遗产、水资源、农业与粮食安全、海洋与海岸带等,通过国际间数据共享,建立地球大数据平台,进而通过调动国内外数据,就可以为政府提供决策支持。”李文斌说,比如实施一些基础设施建设时,地球大数据平台就能为选址、施工等方面提供决策支撑,“有的大工程动辄几十亿、甚至上百上千亿元的投资,如果工程地质条件不佳,存在严重威胁工程建筑安全的地质问题,损失就可能是巨大的。”
怎样为“地球大数据科学工程”保驾护航?“地球大数据科学工程”专项负责人、中科院遥感与数字地球研究所郭华东院士曾举过这样一个例子:
当我们只需要一所学校的地块信息数据时,骑个自行车就可以测量完成了。如果需要掌握北京市的区域信息数据,通常情况下驾车也能调查完成。甚至是河北省的面积监测,有架飞机就能实现。但要做“一带一路”沿线几十个国家的资源环境调查呢?恐怕这些手段就都不够用了。
那么,什么样的手段才能满足大面积数据监测的需求呢?
“答案就是卫星。在几百千米高空的轨道上,卫星可以不断地对地球进行成像,所获取的地球大数据就能为我们应对土地退化、气候变化、水旱灾害等提供决策上的支持依据。”李文斌说,因此,我们才说“地球大数据科学工程”的顺利实施,必须要基于空间技术生成的海量对地观测数据。
在郭华东看来,地球科学是以地球为一个巨型系统研究,需要空间地球观测数据的参与,从而降低系统复杂度,使建模和求解成为可能。他认为,在地球科学长期发展的基础上,半个世纪以来从空间观测地球的新视野新方法,不断加深着对地球的理解特别是宏观认识。而随着遥感、导航定位、地球物理等卫星数量和其他平台的不断增加,以及观测仪器类型的多样化,空间地球大数据正在汇入大数据研究的主流,为地球科学研究带来新机遇。
“我国空间对地观测技术经过40年的发展,自主卫星遥感技术、北斗导航卫星技术等数据获取技术得到长足的发展。”李文斌说,聚焦基于空间技术生成的海量对地观测数据,地球将变得越来越“透明”,并大大推动包括数字地球、全球变化、未来地球、灾害科学等领域的研究及空间地球信息科学的学科发展。
用好地球大数据还需闯过共享关
当前,越来越多的国家已经认识到,地球大数据蕴藏着巨大价值和潜力,是与矿产资源、水利资源一样重要的战略资源。然而,数据海量、碎片分散、应用低效仍是当前面临的严峻问题。
分析其中的原因,主观、客观因素并存。
“一直以来,科研数据的开放共享,都是学界的‘老大难’问题。”李文斌说,客观来说,这和科学数据的特殊性有关,一方面,这些数据许多都属于科研成果的一部分,另一方面,部分数据还因涉及国家安全或国家秘密等确实不宜公开,“但也的确存在有的科研人员或机构还未形成将自己辛苦得来的基础数据拿来共享的意识。”
对此,郭华东表示,“地球大数据科学工程”专项除了突破一系列技术瓶颈问题之外,最重要的就是要做好数据共享。实现高水平的数据共享,不仅能避免数据采集和生产等大量重复性劳动和经费投入,更重要的是保障了数据的规范性和科学性,让科研人员的精力更高效地投入到数据的分析、应用和科学发现中。在他看来:“数据共享做得好不好,很大程度上决定了本专项的成效。”
郭华东坦言,目前这方面仍较难推动。“今后专项一定要在数据共享的机制体制上下功夫,研究提出科学、合理、可行的数据共享制度与政策,要充分考虑数据提供者的利益,调动大家共享数据的主动性和积极性,从而保障该科学工程的活力与生命力。”