作者按
这是一段言者有意听者也有意的故事。准确地说,是四年前的2016年11月21日,在巴黎,附图中的这位先生(Jean-Fran?ois SAGEAU,中文名:沙鸥)一句礼貌的发问“是否能解释一下中国桥梁为什么装那么多传感器?”直接击中了我,把一个不相干的人一把推向了桥梁结构健康监测技术前沿——为此间,不断与多位专业人士研讨,2018年暑期专程去青岛参加“结构健康监测国际会议”,在返程飞机上趁热打铁草就了《桥梁结构健康监测从业者是否该反思一下》。该文由《桥梁》杂志8月刊出,紧跟着,同济大学桥梁系孙利民教授撰文《桥梁结构健康监测技术要经得起实践检验》回应,认为是把问题带回了原点,引起行业热议;2019年2月发表《大数据到底是怎么一回事》,是换个角度进一步再说了;2019年7月发表《科学不是求对是求错》,是又一次在更一般化的层面说。此次西安会议回来,觉得还有反复说的必要,尤其《大数据到底是怎么一回事》是深入到构成和机理说,个人觉得是说明白了一个浅见:搞科学研究不能光赶时髦,要以问题为导向,要实事求是!
Jean-François SAGEAU
大数据到底是怎么一回事
“大数据”现在风头正劲,颇有为一切疑难杂症做解药的可能,尤其是在“万物互联”情形下,不知道要产生多少“大数据”。这些“大数据”能如期发挥作用吗?这取决于我们如何正确认识和对待这个新生事物。为此,发挥一点研究精神殊为必要。
数据的两种功能
数据是为人服务的。不同的生产力发展水平,有不同的数据服务水平。但其功能不外两种:一是信息不完全下的不确定型决策,二是确定型决策。不确定型决策通常需要多种信息,一般是专家从数据中提取信息,供领导决策参考。从数据中领悟信息是人脑的特有本领,不同人的本领不同,由此导致的决策也具有不确定性。支持确定型决策的数据应用却不能有不确定性,比如测量工程师,操作系统的数据应用是由系统控制的,操作须按确定的规则进行。这种数据使用模式旨在保证大规模业务行为的一致性。
一般而言,支持不确定型决策的数据应用因为牵扯到人的因素,难以形成连续性业务。信息的进一步处理是领导个人的事,人脑决策的慢节奏抵消了数据处理的高效率,效率难以提高。支持确定型决策的数据则不同,易于改进和推广,从而体现出较高的效率。比如银行业务系统的信息化和智能化,就是一个业务不断规范、数据流不断扩充,电脑不断接管、人脑不断退出,效率不断提升的过程。
“大数据”的产生
大数据的产生离不开互联网,至少在互联网大规模应用出现以前没有这个名词。一个较为准确的看法是:互联网出现前的海量数据因为缺少规模化应用而没有引起广泛重视,直到互联网创造了大数据规模化应用环境以后,尤其是随着近年移动智能终端设备的使用,出现了物联网、云计算和人工智能之后,大数据应用的成功案例才不断出现,大数据的价值才得以不断展现。
大数据是海量数据与现代信息技术结合后的产物,因为展现了巨大的价值而被尊奉为“大”。其价值是由系列技术组合创新而来的,离开了应用环境的支持,大数据很难再有价值。这跟没有汽车与高速公路石油产业不会这么发达一样。
“大数据”与传统数据的区别
单以数据量规模大小来划分,大数据和传统数据容易掩盖两种数据更实质的差别。
从数据产生过程看,传统数据是假以人手的,即使是机器产生的数据,也需要经过人工核对、填报、汇总、更新,而大数据是机器自动记录、存储和更新的,其处理过程也是由机器自动完成的,人工干预程度极低。大数据是新鲜的、变化快的、可实时处理的,传统数据的时效性则没那么强。——数据资源像蔬菜一样有保鲜期,极少有越老越值钱的数据。数据集中存储很容易,由此而来的数据质量维护却是一大难题。数据生成得快贬值也快,很多数据往往还来不及处理就失效了。
另外,不同的数据使用方式对数据质量有不同的要求,面向确定型决策的应用则对数据质量非常敏感,例如电子商务中证件信息、通讯信息若不能及时更新可能就无法使用。不确定型决策类应用对数据的敏感性则会差一些。大数据到底需要有哪些数据构成,如何更新和维护,不仅应该与应用需求保持同步,而且要有选择有重点有组织地维护好数据质量。没有质量要求的数据,是毫无意义的。
从应用范围看,大数据的形成也使其有先天的局限,比如很多信息是难以数字化的,或者说数字化的成本很高,经济上不值得那么去做。例如国内外形势、心情和情绪等。可数字化的只是一小部分或一个侧面,这就导致大数据通常只适合在局部的很小的领域应用,无法适合面向全局的决策。但大数据却可以自动地综合使用云计算、物联网、智能终端等各种技术资源,建立高效流畅的连续型服务,常见的互联网搜索、电子商务、移动支付、滴滴打车等都是这样的应用。
“大数据”极易形成误导
大数据是中性的,人的行为却是各有各的目的。无视需求,动辄以建立大数据为名,却可能潜藏种种隐患。尤其物联网加入以后,数据堆积起来极其方便,如果不能实时处理这些数据,不能给这些数据以合理的解释和加工,则无异于建造了一个“垃圾堆场”,那些“等着用这些数据训练人工智能”的说法则是纯粹的欺世盗名之词。
大数据是有技术导向的,也是为解决问题服务的,可如果连自己的“病”都搞不清楚,却对着大数据膜拜,岂不像中了邪教一样?
最后呼吁,大家搞科学研究,还是要回到问题导向上来。