在信息爆炸的时代,开放的数据共享大大加快了科学技术向前推进的步伐。研究者在公共数据获取方面遭遇的限制,则反过来阻碍了科研的进步。最近,上海海事大学交通运输学院的Zheng Wan在《自然》上发表评论,指出中国科学家在进行重要的科学研究时,想要访问高质量的公共数据库,已是越来越难。
在这个大数据时代,生物信息数据库和数据共享都有所发展,可用的技术资源也越来越多。直到最近,这种开放科学的趋势一直在帮助中国科学家获得国际竞争力。然而,中国社会正日益感受到对于公共数据搜索和共享的限制。如果这个问题不能尽快解决,便将拖累科学研究和创新。
Zheng Wan表示,中国的科研进步正因数据获取方面的困难而受限。图片来源:themandarin.com.au
当前,中国科学家很难获得高质量的国内数据,而且这还将会越来越难。政府部门掌握了绝大多数公共数据。其中一些部门正在强化自己对数据的垄断,使研究者想获取数据变得更加艰难。人文社科研究者所受的影响尤其明显,而由于研究涉及的数据可能在政治上较敏感,环境科学,公共健康等领域也受到波及。我的很多同行都在学术会议上抱怨过想获取常规数据——例如从当局索取空气污染水平数据——有多困难。
即便是公布的数据,也常常因为数据收集存在缺陷而质量不佳。这其中最典型的例子就是关于中国国内生产总值(GDP)的争议。官方公布的全国数据,与31个省级行政区的GDP总和存在着显著的差异——而且这差异还在拉大。位于北京的国家统计局承认,各省使用的统计方法并不一致,正在进行协调。只是到目前为止,效果并不理想。
公共数据的共享已然变成一种营利手段。当在编制诸如道路交通的污染数据时,公共数据共享是很有用的。理想状况下,这样的任务需要收集多种数据:各类车辆的详细上牌数量、交通拥堵情况、详细的发动机参数以及燃油等级等等。但研究机构甚至连从政府部门获得基础的车辆所有权数据都困难重重,所以他们只能使用生产商的销售数据,但这样的数据既不够缜密,也常常容易造成误导。讽刺的是,对外虚报数据的汽车生产商,自己却可以得到客观可靠的、关于竞争对手的销售数据——他们以公共机构和科学家负担不起的价格,通过特殊渠道向政府部门的关联方购买数据。
研究者求之不得的数据,一些企业却可以通过特殊渠道以高价购买到。图片来源:Daniel Allan/Photographer’s Choice
在这样的环境下,一些中国研究团队不愿意公开自己的数据,也就不是什么令人感到意外的事情了。数据就是无形资产,可以使科学家在自己的学术领域中获得竞争优势。很多人都向我自己的研究团队请求海事数据——例如我们汇编的港口统计数据和船队信息——但是我们也不情愿分享这些信息。为了将零散的数据收集、整理称可用的形式,我们付出了巨大的人力物力。如果我们不公开这些数据,就可以使用这些数据撰写论文。
但如果我们能更便捷地从其他来源获取优质数据,我们就会更愿意分享自己的数据。
由于研究者获取公共数据都需要克服重重困难,研究数据在中国研究团队之间的分享氛围也因而受到了削弱。图片来源:nature.com
开放公共数据库并提高数据质量可以提高政府事务的透明度。尽管进展缓慢,我们还是有一些提高透明度,使社会受益的案例。在社会压力下,环保局从2014年起开始全面公布空气污染数据,便是一个典型的例子。之前,环保局只公布简略的日报,如今每小时都更新数据。这些数据被中国的政府部门广泛使用。根据这些数据,卫生局得以向民众发布预警,教育局也有依据决定学校是否在空气重度污染时停课,交管局则得以调整限行规定。充分披露这些数据最重要的作用,也许在于提高了公众对不断恶化的污染问题的关注程度。
不幸的是,科学家感兴趣的数据,公众不一定感兴趣。实现完全透明,开放更多公共数据,任重而道远。受到限制的不仅仅是中国国内产生的数据,查阅国外的学术资源有时也在技术上很难实现——一些政府信息管理部门用技术手段设限,以过滤潜在的有害信息。
我在中国的学术生涯受到了影响。我几乎不能有效地搜索学术文献。相比于其他搜索引擎,我更喜欢使用谷歌学术搜索,因为它包含了图书、论文、学位论文、专利、技术报告——但我却无法使用它,只好逐一搜索其他尚可以登录的、由出版商运营的数据库。
网络安全对于国家安全固然至关重要,而优质的数据是科学进步和经济发展的后盾。资源共享和开放可靠数据可以巩固经济发展和社会安定。中国需要全面的研究来解决这些矛盾。这样我们才能建立起对各方都有益的,高效合理的数据管理机制。更具体地说来,研究者应该有更多权限,尤其是访问公共数据和学术搜索引擎的权限。