什么是大数据?

佩里数据
大数据的提出者是维克托·迈尔-舍恩伯格和肯尼斯·库克耶,在全球畅销着作《大数据时代》中他们谈到,大数据与传统的统计学最重要的区别之一就是大数据要利用所有的数据,而不再仅仅依靠一小部分数据。

大数据,大在哪里?有多大?多大是大?

关于“大”的描述,庄子在《逍遥游》中有这样的表述:

有鱼焉,其广数千里,未有知其修者,其名为鲲。有鸟焉,其名为鹏,背若泰山,翼若垂天之云,抟扶摇羊角而上者九万里,绝云气,负青天,然后图南,且适南冥也。

放在大数据上,可以理解为:

鲲之大 一锅炖不下;鹏之大 需要两个烤架。

大数据的体量大到无法用单台的计算机进行处理,必须采用分布式架构,也就是多台机器联合起来进行计算(一锅炖不下)。它的特色在于需要对海量数据进行分布式数据挖掘(需要两个烤架)。这也就决定了大数据必然与云计算紧密相连,因为单台计算机无法处理,它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

大数据能有多大?举个栗子

中国的"天眼"是目前世界上最大单口径射电望远镜(简称FAST),其在数据处理上选择与阿里云合作。天眼产生的原始数据高达38GB/秒,折算下来一天的数据存储量高达3283TB,按照现在市场上主流电脑硬盘520G的配置,总共需要6566台电脑。

随着大数据时代的到来,人们可能会产生一个疑问,大数据分析与传统的数据分析有什么区别?

区别1:大数据的别称:全数据

大数据的提出者是维克托·迈尔-舍恩伯格和肯尼斯·库克耶,在全球畅销着作《大数据时代》中他们谈到,大数据与传统的统计学最重要的区别之一就是大数据要利用所有的数据,而不再仅仅依靠一小部分数据。

统计学的核心是抽样调查,用少部分数据的特征来推测整体的特征,采样的随机性在很大程度上决定了分析的精确性。而大数据是将所有的数据整体纳入进来,对整体进行分析。所以大数据又叫 “全数据”。

在日常的工作中,我们拿到一个数据样本,可能最多不会超过10000条数据,在体量上不能称其为大数据,但是可以运用大数据的方法和思维方式:对数据的整体进行分析。

区别2:大数据可以包容错误数据

对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的数据比较少,所以必须确保记录下来的数据尽量精确。而大数据是以牺牲数据的精确性为代价获取更多的数据量,放松了容错的标准。

例如在统计个人时,包含身高、体重、年龄、性别、血型、生日、籍贯等字段,其中一个人的数据中体重一项出现了明显错误,或者是空白漏填。这条记录仍然可以保留在数据库中,将整体的平均体重当作这个人的体重数据。这样做明显不够精确,但是随着数据体量的增大,不精确性会被逐渐稀释,直至对整体几乎不造成影响。

“小数据”是避免错误,大数据是以体量来稀释错误。不纠结某个点的对错,而是注重整条线、整个体的建构。

由于大数据对错误数据的包容性,所以大数据通常会用概率来说话,而不是追求100%的确凿无疑。《大数据时代》中指出,社会要习惯这样的概率思维可能需要很长时间。然而,直男癌可能具有得天独厚的优势。在“直女癌”的眼中,直男的衣品永远只有黑、白、灰三个颜色。只有直男才会懂得,灰色可以有很多种。

区别3:大数据更追求相关关系

在传统的分析当中,我们往往喜欢追求一个事件发生的原因,挖出背后的因果关系。追求准确的因果关系是很奢侈的一件事,运用大数据能够找到相关关系就足够创造出价值。知道“是什么”就够了,没必要知道“为什么”。

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助分析一个现象,而不是通过揭示其内部的运作机制。

因果关系在很多情境下很重要,但是想要揭示事件内部的运作机制来找到准确的因果关系是非常困难的。因果错觉大概是人类最容易出现的错觉。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论