数据,是企业加速业务创新的法宝;数据,是企业在激烈的市场竞争中立于不败之地的利器;有时候,数据的重要性堪比石油和黄金……这些说法一点也不夸张。但前提是,数据要想真正发挥价值,必须要有好的数据管理平台,能够及时捕捉、存储和分析,这也是以AWS为代表的大型企业力推数据湖解决方案的最根本原因。那么,问题来了,什么是数据湖?
数据湖为什么重要?
“简单理解,数据湖就是一个中心数据存储的容器,用户不仅可以存储结构化以及非结构化的任何数据,还可以对数据进行快速缩放、查询和分析。”AWS首席云计算企业战略顾问张侠博士,用“河”和“湖”的字面意义,进一步解释了数据湖和传统的数据库以及数据仓库的区别。
传统数据处理方式,就像“一条小河”,里面有ERP、CRM等各种业务系统,用户可以设计“一个河道”,数据库在最底层,数据经过整理进入数据仓库,然后通过商务智能工具来展示。简单理解,在传统数据处理过程中,用户大概知道能有多少“水”,还可以通过“闸门”管控水量。但是,在互联网时代,各种各样的视频、移动终端信息如“洪水猛兽”,形成大规模的海量数据,用户来不及整理和使用。这时,一个新的设想打开了人们的视野,假设有那么一片洼地,没有河道,所有数据先蓄积到里面,然后通过有效的工具进行查询和处理,这便是数据湖。
在张侠看来,数据湖有几个重要特点。第一,存的是原始的自然数据,既可以是结构化数据,也可以是非结构化数据;第二,因为使用了云计算,用户可以快速缩放海量数据;第三,在数据查询过程中,除了能进行建目录、数据迁移和抽取等动作,还能进一步归类、进行数据分析等等。另外,数据湖不仅是高可用、高持久、海量数据处理的选择,同时还能满足安全、合规和审计等要求。
而对于用户来说,借助最新的数据湖解决方案,不仅能解决过去的数据孤岛问题,同时还能兼容传统的数据仓库和数据分析方法。最重要的是,更适合现代应用部署,比如和机器学习结合,进行预测性的分析。
谁在推动数据湖技术变革?
数据湖概念最早由大数据厂商提出,从2011年5月到现在,已有8、9年的时间。但从具体市场行动来看,其实亚马逊在数据湖方面的部署要更早。
作为公有云市场的引领者,AWS有一个基础的云服务,那就是Amazon S3,于2006年3月14日白色情人节发布。Amazon S3可以存以二进位为基础的任何信息,包括传统的来自数据库的结构化数据,以及手机、汽车、风力发电机、摄像机镜头等非结构化数据。也就是说,Amazon S3就是数据湖的核心,它既可以被当做数据仓库使用,也可以形成各种报表,对需要的数据进行各类分析,包括交互式的查询、运营分析,以及数据的实时分析、推荐、预测等等。基于Amazon S3,用户还可以交易和买卖数据,并且能全程可视化地看到所有数据。
Amazon S3,拥有11个9的数据持久性,高度弹性的3个可用区架构,能提供更多区域复制选项以及分离,拥有独立扩展存储和计算的能力,所以能为数据湖提供最佳存储层。
在Amazon S3的后端还有一个冷存储,如果数据不常用可以转到Amazon Glacier (是冰河的意思),能帮助用户降低很多费用,只是用数据的时候需要多花3、4个小时才能提取,包括深度冷存储Deep Archive,都是为了缓解用户的存储压力。与Amazon S3紧密结合的产品还有各类的数据库,其中Amazon DynamoDB就是一个非关系型数据库,专门存储键值类的数据,全球有大量的数据都存储在这里。比如:在游戏应用场景里,每个玩家是第几级?有多少血?用什么样的武器?这些都是键值配对数据。
在AWS构建的数据湖解决方案中,除了Amazon S3,还有几个重要服务,包括:Amazon RDS、Amazon Redshift和Amazon EMR。
Amazon RDS,全称是Amazon Relational Database Service,是一个托管的关系型数据库,支持诸如SQL Server、Oracle数据库、开源PostgreSQL以及MySQL等数据库。但如果用户更倾向于使用云原生数据库,则可以使用Amazon Aurora,同样可以兼容MySQL和PostgreSQL。
可以说,从数据库到数据仓库,Amazon已经拥有很多明星级产品阵容,比如:Amazon Redshift,是一个基于云的重要的数据仓库产品,不仅具有强大的缩放能力,成本也是传统的数据库的十分之一。还有图形数据库Amazon Neptune,在过去的半年时间里,也在中国落地。
那么,我们该如何解决大数据的海量分析及实时性处理问题?Amazon也有专属产品!针对海量数据的处理,有一款产品叫做EMR,全称是Elastic MapReduce,主要用于集群,用类似于Hadoop开源的方法做大数据集群分析,研究大数据的相关性。而针对大数据的实时性问题,用户可以使用Amazon Kinesis进行不同数据的处理,包括可以处理视频的数据流,也可以把数据直接导入关键服务,都有不同的处理方式。
如何打造数据湖全案?
到目前为止,数据湖解决方案的技术环境已经成熟,AWS有100多种服务来支持任何数据湖用例,包括用无服务器就地查询与处理选项,可极大地缩短获得结果的时间,并降低数据洞察的成本。但值得一提的是,AWS的数据湖绝不只是一个个组件式应用,而是一个完整的解决方案,尤其在Amazon Athena和AWS Glue两大重磅产品的助力下,企业可以获得最佳服务体验。
Amazon Athena(Athena的英文是雅典娜),是交互式数据查询工具。当用户把各种数据都存在S3上面,使用SQL可以直接在S3里面对这些数据做查询,轻松分析Amazon S3中的数据。由于Athena是一种无服务器服务,因此客户不需要管理基础设施,而且只为他们运行的查询付费。Athena可以自动扩展,并行执行查询,所以即便是大型数据集和复杂的查询,也能很快获得查询结果。
AWS Glue(Glue是胶水的意思),在不同数据库服务之间起到连接器的作用。最主要有两个功能:一个是ETL,承担Extract、Transform和Load等基本操作,也就是要做数据的抽取、转换和加载。另外一个,就是数据目录服务功能。在把所有数据都存在数据湖里的过程中,我们要对这些数据打标签,做分类的工作,而Glue有一个像爬虫一样的功能,可以对数据湖里的海量数据自动爬取,并生成数据目录。
目前,Amazon Athena和AWS Glue都已在中国落地。从2019年12月19日起,由西云数据运营的 AWS 中国(宁夏)区域已提供 AWS Glue服务。2020年1月9日,Amazon Redshift Spectrum 在由西云数据运营的 AWS 中国(宁夏)区域推出。2020年1月16日起,Amazon Athena 已在由西云数据运营的 AWS 中国(宁夏)区域推出。
“到了2020年,如果企业想在激烈的市场竞争中始终保持领先优势,就应用好好研究下数据湖这一重要趋势,并快速投入使用阶段。” 张侠认为,数据湖解决方案从两、三年前开始就已经成熟了,主要产品单元已经全部到位,并且已经有很多成功的落地案例。尤其在人工智能、5G、边缘计算等新技术高速发展的新时期,通过数据湖对数据进行存储、分析是必经道路,如果在恰当的时机选择了适合的解决方案,会帮助企业少走些弯路,让企业IT为业务创造更多可能性。
所以,不管是大数据开发者,还是企业大数据技术决策者,都应该重新审视数据湖这一核心力量,通过构建更强大的业务平台为企业减轻运营压力,提高工作效率。而AWS带来数据湖整体解决方案,不仅帮助企业更好地利用数据价值,还可以让我们“站在巨人的肩膀上看世界”。
谁在利用数据湖解决方案获取数据价值?
目前,AWS数据湖解决方案已经有诸多来自全球以及中国本地的落地案例。
首先,是Amazon自己。秉承“吃自己的狗粮”的理念,Amazon早已在整个企业内部建立了一个数据湖——Galaxy。Galaxy将所有数据整合在一起,进行各种各样大数据的分析,存储了50PB到100PB的数据。通过它,Amazon每天执行多达60万的分析任务,从给用户的推荐、各种运营信息、库存信息、购买意向的信息、商品价格的信息等,相关洞察都通过数据湖来实现,这也是Amazon关键的核心竞争力之一。
其次是,美国的金融监管机构 FINRA。该机构每天有超过1500亿的事件、需要对超过20PB的数据运行复杂的查询,以监测和分析非法的市场活动。FINRA将所有金融的交易的信息整合在一起,可以处理所有的内部交易。使用AWS的数据湖,FINRA提高了系统的敏捷性和速度,每年可节省1000万美元到2000万美元。
除了Amazon和FINRA以外,还有大量的企业和机构都已经开始采用AWS的数据湖和数据分析云服务,例如,金融领域还有着名的基金管理公司Vanguard、证券交易所NASDAQ,互联网及电商方面除了Amazon还有全球民宿短租公寓预定平台Airbnb、酒店及机票预订网站Expedia、美国版大众点评Yelp、房地产评估服务网站Zillow、即时通信软件Viber、慈善社交应用Just Giving等,电信领域有NTT Docomo,软件公司有Atlassian,游戏公司 EPIC Games,传统领域有多元化创新企业3M、知名造纸企业Georgia-Pacific、北美最大的食品服务销售企业西斯科(Sysco),媒体行业有Hearst赫斯特杂志国际集团(《ELLE世界时装之苑》等媒体的母公司),医药行业有安进公司(Amgen),等等。他们创造了丰富的成功案例,为中国的企业和机构提供了宝贵的经验借鉴。
而在中国本地,也有一些优秀企业走在了时代前沿。比如:北京壳木软件有限责任公司(Camel Games),是隶属于神州泰岳旗下的手机网游公司,曾在2011 年获得了Google Play 官方颁发的 Top Developer(顶尖开发者)称号,也采用了AWS的数据湖解决方案获取数据价值。Camel Games服务器主管张华表示:“AWS Glue帮助我们完成了复杂的ETL任务,可以从数百个Amazon RDS数据库中定时提取所需要的数据,供数据分析部门进行迅速而直观的全局统计,大大缩短了原本跨表查询的时间”。
AWS的数据湖解决方案在中国企业走向全球的征程中,也做出了重要贡献。比如:大宇无限,这是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限平台技术负责人李睿表示,“每个月,我们的业务运营都需要花费大量人力,分析全球十亿用户的海量数据。使用Amazon Athena交互式查询服务之后,我们可以用SQL语言直接在 Amazon S3 中轻松查询、分析用户数据,节省了成本,减轻了运营压力,普通的工程师与业务部门人员都可以方便地自助查询各类业务数据,极大地提高了生产效率。”
另外还有茄子快传,这是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚表示,“茄子快传的数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析,AWS的分析工具很好地满足了我们日常的数据提取和分析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,分析数据,不必构建和部署额外的集群。同时,我们运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”