大数据技术的概念,特点,架构演进,技术发展及其应用状况

丁哥开讲
大数据和物联网协同工作。从物联网设备中提取的数据提供了设备间的相互连接映射。这种映射已经被媒体行业、企业和政府用于更准确地定位受众,提高媒体效率。物联网也越来越多地被用作收集感官数据的手段,这些感官数据已经被应用于医疗、制造和交通等场景。

【定义】

大数据这个词从20世纪90年代就开始使用。

大数据通常包括规模超过常用软件工具在可容忍的时间内抓取、研究、管理和处理数据的能力的数据集。

大数据的理念包括非结构化、半结构化和结构化数据,主要的重点是非结构化数据。

大数据的 "规模"是一个不断变化的概念,大数据需要一套技术整合,才能从多样化、复杂化、大规模的数据集中揭示出规律。

2018年的一个定义指出,"大数据是需要并行计算工具来处理的数据",并指出,"这代表着通过并行编程理论,对所使用的计算机科学产生了明显的、明确的需求变化,同时也损失了Codd关系模型所具备的一些保障和能力"。

这个概念的日益成熟,更加鲜明地划定了 "大数据"与 "商业智能"的区别:

商业智能是利用应用数学工具和描述性统计学,用高信息密度的数据来衡量事物、检测趋势等等。

大数据利用数学分析、优化、归纳统计和非线性系统识别的概念,从信息密度较低的大数据集中推断出规律(回归、非线性关系和因果效应),揭示关系和依赖性,或对结果和行为进行预测。

【关键概念】

大数据技术是处理分析数据集并且系统地从数据集中提取信息或以其他方式处理数据集的技术。

由于这些数据集过于庞大或复杂,以至于传统的数据处理应用软件无法处理。

具有多种用例的数据会提供更大的统计能力,而复杂度较高的数据更有可能会导致错误。

大数据的挑战包括数据的捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据来源等等。

大数据与三个关键概念相关:

数量、种类和变化速度。

【数量】

当我们在处理大数据时,可能不是采样,而是简单地观察和跟踪发生的事情。

大数据往往包括了在可接受的时间和价值范围内超过传统软件处理能力的数据。

目前对大数据这个词的使用,往往是指使用预测分析、用户行为分析或某些其他高级数据分析方法,从数据中提取价值,而很少指特定规模的数据集。

毫无疑问,现在的数据量确实很大,但这并不是这个新的数据生态系统最相关的特征。

【种类】

分析数据集可以找到新的关联性,用以发现商业趋势、预防疾病、打击犯罪等等。

科学家、企业高管、医学从业者、广告业者和政府都经常遇到大数据集处理的困难,这些领域包括互联网搜索、金融科技、城市信息学、商业信息学等。

科学家在电子科学工作中遇到的限制,包括气象学、基因组学、连接组学、复杂的物理模拟、生物学和环境研究等等。

【变化速度】

数据集的快速增长,在一定程度上是因为它们越来越多地被移动设备、航拍(遥感)、软件日志、摄像头、麦克风、射频识别(RFID)读卡器和无线传感网络等廉价且数量众多的信息传感物联网设备所收集。

自20世纪80年代以来,全球人均存储信息的技术能力大致以每40个月增加一倍的速度增长。截至2012年,每天都有2.5 exabytes(1exabytes = 1.0E+9 Gigabytes)的数据产生。

根据IDC的报告预测,2013年至2020年,全球数据量将从4.4 zettabytes(1 Zettabytes = 1.0E+12 Gigabytes)呈指数级增长,达到44zettabytes。

到2025年,IDC预测将有163zettabytes的数据量,大型企业面临的一个问题是确定谁应该制定影响整个组织的大数据举措。

关系型数据库管理系统、桌面统计和用于可视化数据的软件包往往难以处理大数据。这些工作可能需要使用可在几十台、几百台甚至几千台服务器上运行的大规模并行软件系统。

"大数据"的定义取决于用户及其工具的能力,而不断扩大的能力使大数据成为一个移动的目标概念。

对于一些企业来说,第一次面对数百GB(千兆字节)的数据,可能会引发企业重新考虑数据管理方案。

而对于另一些组织来说,可能要等到几十兆或几百terabytes(百万兆字节)的数据规模才会成为重要的考虑因素。

【特点】

大数据存在如下属性特征:

体积

产生和存储的数据量。

数据的大小决定了数据的价值和潜在的规律,也决定了它是否可以被认为是大数据。

品种

数据的类型和性质。

这有助于分析数据的人有效利用由此产生的规律。大数据从文字、图像、音频、视频中提取,再加上数据融合来完成缺失的部分。

速度

数据产生和处理的速度,以满足成长和发展道路上的需求和挑战。

大数据往往具有实时性。与小数据相比,大数据的产生更具有持续性。与大数据相关的两种速度是产生和处理的频率、记录和发布的频率。

真实性

它是大数据的延伸定义,指的是数据质量和数据价值。如果采集到的数据质量有很大的差异,就会影响到分析的准确性。

大数据的数据质量是指数据质量和数据价值。

大数据的其他重要特征是:

详尽无遗

整个系统是否被捕获或记录。

细粒度和唯一性

分别是指每个元素的具体数据的比例,每个元素的具体数据的收集,以及元素及其特征是否被适当的索引或识别。

相关性

如果收集到的数据中包含共性字段,可以对不同的数据集进行联接或元分析。

扩展性

收集到的数据中的每个元素中的新字段是否可以很容易地添加或更改。

可扩展性

数据的大小是否可以迅速扩大。

价值

是否可以从数据中提取的效用。

变化性

它是指其价值或其他特征相对于其产生的背景而发生变化的数据。

【架构演进】

大数据存储库以多种形式存在,通常是由有特殊需求的企业创建。

【并行数据库管理系统】

从20世纪90年代开始,商业厂商提供了大数据并行数据库管理系统。多年来,WinterCorp公司发布了最大的数据库报告。

Teradata公司在1984年推出了并行处理的DBC 1012系统。1992年,Teradata系统是第一个能够存储和分析1个terabytes数据的系统。1991年,硬盘容量为2.5GB,所以根据Kryder定律,大数据的定义在不断发展。

Teradata在2007年安装了第一个基于petabyte级的RDBMS系统。

截止到2017年,Teradata的关系型数据库已经安装了几十个petabyte级的Teradata关系型数据库,其中最大的超过50PB。

【结构化数据和非结构化数据】

2008年之前的系统都是100%的结构化关系型数据。

此后,Teradata又增加了非结构化数据类型,包括XML、JSON和Avro。

【分布式平台】

2000年,Seisint公司(现在的LexisNexis Risk Inc)开发了一个基于C++的分布式数据处理和查询平台,被称为HPCC系统平台。

该系统可在多个商品服务器上自动分区、分发、存储和传递结构化、半结构化和非结构化数据。用户可以用一种名为ECL的声明式数据流编程语言编写数据处理管道和查询。在ECL中工作的数据分析人员不需要预先定义数据模式,而是可以专注于手头的特定问题,在开发解决方案时以最佳的方式重塑数据。2004年,LexisNexis收购了Seisint公司及其高速并行处理平台,并在2008年收购Choicepoint公司时,成功地利用该平台整合了Choicepoint公司的数据系统,2011年,HPCC系统平台在Apache v2.0许可证下开源。

【高通量计算】

欧洲核子研究中心和其他物理实验收集大数据集已有数十年的历史,通常是通过高通量计算来分析,而不是目前流行的"大数据"模式,通常指的MapReduce架构。

【MapReduce架构】

2004年,谷歌发表了一篇名为MapReduce的论文。MapReduce提供了一个并行处理模型,并发布了相关的实现来处理海量数据。通过MapReduce模型,查询工作被拆分并分布在并行节点上,然后进行并行处理(Map步骤),然后将结果进行收集并交付(Reduce步骤)。

这个框架是非常成功的,Apache开源项目Hadoop采用了MapReduce框架的实现,Apache Spark在2012年针对MapReduce范式的局限性而创建,它增加了许多操作的设置能力,而不仅仅是Map之后的Reduce。

【MIKE2.0】

MIKE2.0是一种开放的信息管理方法论,该方法论解决了在处理大数据时的几个困难:

· 数据源的有效组合

· 相互关系的复杂性

· 删除(或修改)单个记录

等方面。

【多层架构】

2012年的研究表明,多层架构是解决大数据带来的问题的一种选择。分布式并行架构将数据分布在多个服务器上,这些并行执行环境可以显着提高数据处理速度。这种类型的架构将数据插入到并行DBMS中,实现了MapReduce和Hadoop框架的使用。这种类型的框架希望通过使用前端应用服务让处理对终端用户透明化 。

【数据湖泊】

数据湖泊使处理的重点从集中控制转移到共享模式,以应对信息管理的动态变化。这样可以将数据快速隔离到数据湖泊中,从而减少了时间开销。

【技术发展】

2011年麦肯锡全球研究所的一份报告将大数据的主要组成部分和生态系统描述如下:

· 数据分析技术,如A/B测试、机器学习和自然语言处理等数据分析技术

· 商业智能、云计算和数据库等大数据技术

· 可视化,如图表、图形和其他数据显示等

多维大数据可以用OLAP数据立方体来表示,或者在数学上也可以用张量(tensor)来表示。

阵列数据库系统已经着手为这种数据类型提供存储和高级查询支持。

正在应用于大数据的其他技术包括基于张量(tensor)的高效计算,如:

· 多线子空间学习、

· 大规模并行处理(MPP)数据库、

· 基于搜索的应用、

· 数据挖掘、

· 分布式文件系统、

· 分布式缓存(如突发缓冲器和Memcached)、

· 分布式数据库、

· 云

· 基于HPC的基础设施(应用、存储和计算资源)

· 互联网

虽然许多方法和技术已经形成了气候,但要利用大数据进行机器学习仍然是困难重重。

【MPP关系型数据库】

一些MPP关系型数据库具有存储和管理PB级数据的能力,也就是指拥有对RDBMS中的大数据表进行加载、监控、备份和优化使用的能力。

【DARPA的拓扑数据分析】

DARPA的拓扑数据分析通过寻求海量数据集的基本结构来处理,2008年,该技术随着一家名为Ayasdi的公司的推出而为业界所熟悉。

【共享存储】

大数据分析过程的从业者普遍对速度较慢的共享存储持有怀疑态度,他们更喜欢各种形式的直连式存储(DAS):

· 固态硬盘(SSD)

· 部署在并行处理节点内的大容量SATA磁盘。

共享存储架构如:

· 存储区域网络(SAN)

· 网络连接存储(NAS)

人们对共享存储架构的看法是:相对较慢、复杂而且昂贵。

这些特点与大数据分析系统的要求相悖,因为大数据分析系统很深的依赖于系统性能、商用的基础设施并且追求低成本。

实时或近乎实时的信息传递是大数据分析的重要需求之一。

因此要尽可能地避免延迟。

访问直连的内存或磁盘中的数据是好的方式,而跨连的FC SAN的内存或磁盘数据访问则不理想。并且在分析应用所需的规模下,SAN的成本比其他存储技术要高得多。

总的来说,在大数据分析中,共享存储有优点也有缺点,但截至2011年,大数据分析从业者并不看好共享存储。

也许随着网络速度的大大提升,人们对于共享存储的观念会有所改变。

【应用】

大数据研究增加了对信息管理专家的需求。

Software AG、甲骨文公司、IBM、微软、SAP、EMC、惠普和戴尔公司在专门从事数据管理和分析的软件公司上花费了超过150亿美元。

2010年,这个行业的价值超过了1000亿美元,并且每年以近10%的速度增长:这个速度大约是整个软件业务的两倍。

发达经济体越来越多地使用数据密集型技术。

全世界有46亿移动电话用户,有10亿至20亿人使用互联网,1990年至2005年期间,全世界有10亿多人进入中产阶级,这意味着对于知识量扩展需求的增加,这反过来又带动了信息的增长。

1986年,全球通过电信网络进行信息交换的有效容量为281兆字节(petabytes),1993年为471 281 兆字节(petabytes),2000年为2.2 以太字节(exabytes),2007年为65以太字节(exabytes),据预测,到2014年,每年的互联网流量将达到667以太字节(exabytes),据一项估计,全球存储的信息有三分之一是以字母数字文本和静态图像数据的形式。这也从一个侧面反映了尚未使用的数据形式如视频和音频形式的潜力。

虽然许多厂商提供了现成的大数据解决方案,但专家们建议如果公司有足够的技术能力,可以在公司内部开发定制化的解决方案,以解决公司当前面临的大数据处理问题。

【政府】

大数据在政府流程中的使用可以提高效率、生产力和创新能力,但数据分析往往需要政府的多个部门(中央和地方)协同合作,创建新的创新流程,以达到预期的结果。

CRVS(民事登记和生命统计)收集从出生到死亡的所有证书状态。

民事登记和人口动态统计系统是政府的一个大数据来源。

【国际发展】

关于有效利用信息和通信技术促进发展(也称为ICT4D)的研究表明,大数据技术可以做出重要贡献,但同时也给国际发展带来了独特的挑战。

大数据分析的进步为改善保健、就业、经济生产力、治理犯罪、安全、自然灾害和资源管理等关键发展领域的决策提供了卓有成效的帮助。

此外,用户生成的数据也提供了新的更多的机会,让名不见经传的普通人也有了发言权。

然而,发展中地区长期以来面临的挑战,如技术基础设施不足、经济和人力资源匮乏等等问题,带来了诸如隐私、方法不完善和互操作性不规范等等的问题。

【医疗保健】

大数据分析通过提供个性化医疗及处方分析、临床风险干预及预测分析、减少浪费及护理变异性、患者数据的外部及内部自动报告、标准化的医疗术语及患者登记再加上碎片化的处理解决方案,帮助医疗系统改善了医疗服务。

有些领域的改善还存在一些不足。

医疗系统内部产生的数据量是巨大的。随着mHealth、eHealth和可穿戴技术的增加,数据量将继续增加。这包括电子健康记录数据、影像数据、患者数据、传感器数据和其他难以处理的数据。

现在,这样的环境更需要重视数据和信息质量。

大数据很多时候存在'脏数据'的情况,数据不准确的比例会随着数据量的增长而增加。

在大数据规模下,人类的检查是不可能达到预期效果的,医疗服务领域迫切需要智能工具来控制和处理信息的准确性和可信度,并对遗漏的信息进行处理。

虽然现在医疗领域的大量信息都是电子化的,但由于大部分是非结构化的数据,难以直接使用,这些信息都符合大数据研究的范畴。

大数据在医疗领域的应用提出了重大的伦理挑战,从个人权利、隐私和自主权的风险评估,到透明度和信任度等方面都有很大的挑战。

大数据在健康领域研究中的探索性生物医学研究的应用前景特别被看好,因为数据驱动的分析能够比假设驱动的研究更快地推进,接着,在数据分析中看到的趋势可以在传统的假设驱动的后续生物学研究中进行实践检验,最终可以推动进行临床研究。

在医疗卫生领域内,医学中的计算机辅助诊断是依赖大数据的应用细分领域。比如说,对于癫痫监测,每天要建立5到10GB的数据。

同样地,一个未压缩的乳腺断层扫描图像平均需要450MB的数据。

这些只是计算机辅助诊断使用大数据几个简单例子。

大数据被认为是计算机辅助诊断系统需要克服的七大挑战之一。

【教育】

麦肯锡全球研究所的一项研究发现,全球缺乏150万受过良好训练的数据专业人才和管理人员,包括田纳西大学和加州大学伯克利分校在内的一些大学都开设了硕士课程,以满足这一需求。

私人训练营也开发了一些项目来满足这种需求,包括像数据孵化器这样的免费项目,或者像General Assembly这样的付费项目。

在营销的具体领域,Wedel和Kannan强调的问题之一是,营销有多个子领域(如广告、促销、产品开发、品牌建设),这些领域都使用不同类型的数据。

由于 "一刀切"的分析方案是不可取的,因此,商学院应该培养营销经理人对这些子领域中使用的不同技术有广泛的了解,以便掌握大局观,并与分析人员有效地合作。

【媒体】

要了解媒体如何利用大数据,首先需要先了解一些关于媒体制作过程中使用机制的背景资料。

Nick Couldry和JosephTurow曾提出,媒体和广告业的从业者将大数据作为许多可操作的信息点来对待。

这个行业正在摆脱传统的方法,即利用报纸、杂志或电视节目等特定的媒体环境,转而利用技术手段挖掘消费者,在最佳时间、最佳地点触达目标人群。

最终的目的是传达或者服务(从统计学上讲)符合消费者心理的信息或内容。

例如,出版环境越来越多地对信息(广告)和内容(文章)进行定制,以吸引消费者,而这些信息(广告)和内容(文章)都是通过各种数据挖掘活动独家收集到的。

数据新闻:出版商和记者利用大数据工具提供独特的创新见解和信息图表。

英国公共服务电视广播公司Channel 4是大数据和数据分析领域的领导者。

【保险业务】

健康保险机构正在收集社会上的 "健康决定因素"的数据,如食物及电视消费、婚姻状况、衣着尺寸和购买习惯等,并据此对健康费用进行预测,以发现客户的健康问题。目前,这些预测结果是否被用于商业化定价是有争议的。

【物联网(IoT)】

大数据和物联网协同工作。从物联网设备中提取的数据提供了设备间的相互连接映射。这种映射已经被媒体行业、企业和政府用于更准确地定位受众,提高媒体效率。物联网也越来越多地被用作收集感官数据的手段,这些感官数据已经被应用于医疗、制造和交通等场景。

【信息技术】

特别是2015年以来,大数据作为帮助员工提高工作效率、简化信息技术(IT)收集和分配的工具,在企业内部的业务运营中逐渐凸显出来。

利用大数据来解决企业内部的IT和数据收集问题被称为IT运营分析(ITOA)。

通过将大数据原理应用到机器智能和深度计算的概念中,IT部门可以在问题发生之前预测潜在的问题,并在问题发生之前就采取行动提供解决方案。

这时,ITOA业务也开始在系统管理中发挥重要作用,它提供的平台将单个数据孤岛汇集在一起,并从整个系统中产生洞察力。

【小结】

本来我们对大数据的一些概念进行了学习和探讨,主要从大数据的定义,特点,架构演进和技术发展应用等几个方面进行了细化分析,希望对广大关心大数据技术的朋友有所帮助。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论