大数据读懂你的心

大科技
大数据的核心就是预测,它把数学算法运用到海量的数据上来预测人们的行为模式以及事件发生的可能性。

大数据的核心就是预测,它把数学算法运用到海量的数据上来预测人们的行为模式以及事件发生的可能性。通过大数据分析,当当网可以帮我们推荐想要的书,百度可以为关联网站排序,微信可以猜出我们认识谁。当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。

《纸牌屋》成功的秘密

《纸牌屋》是2013年美国最火的电视连续剧之一。它虽然有大牌导演加大牌演员的豪华阵容,但是在寻找投资时却遇上了难题,以往电视剧的主创者都会至少做出一两集的样片,以提供投资依据,但这次,导演和演员都太大牌了,他们除了提供一个剧名外,没提供一点样片,结果没有一家电视台敢冒风险投资。

这时,一家公司却做出一个惊人的决定,它不仅向这部电视剧投资了1亿美元(几乎是美国一般电视剧价钱的两倍),而且史无前例地做出了要拍足两季的承诺。更惊人的是,这家公司既不是电视台,也不是电影公司,而是一家类似于中国的土豆或优酷这样的在线视频播放网站——奈飞(Netflix)。

奈飞公司早期只是一家影片租赁商,通过邮寄方式租赁DVD来赚钱。到了互联网时代,奈飞才开始转向在线流媒体播放。令电视业巨头们困惑的是,影视投资向来充满风险,收视率、票房的可预测性一直很低,也许你找齐了金牌导演、实力演员和当下流行题材的剧本,结果依然不上座。而奈飞只是一个普通的视频播放网站,既没有拍摄经验,也不能很好地为影片的质量把关,它为何敢于在不看样片的情况下进行如此大笔的投资呢?

其实奈飞和传统电视业的关注点并无不同,都是看电视剧的内容能否引起观众的共鸣。只不过,传统方式是通过看样片来决定,而奈飞依赖的是该网站上3000万名订阅用户的收看习惯和偏好所组成的庞大的数据群。

用户只要登录奈飞的网站,对某一个视频的每一次点击、播放、暂停、快进、回放,看了几分钟就观点视频,或者停了一段时间又重新打开,这些“事件”都被奈飞记录下来并进行汇总分析。奈飞每天有700名工程师对用户3000万次的播放动作、400万次的评级、300万次的搜索进行缜密的数学计算,对视频观看时间以及所使用的设备进行分析挖掘,并以此策划节目。

奈飞或许并不能准确知道每名用户点击暂停按钮的个人原因,但是如果足够多的人在整段视频中的同一个地方做了相同的举动,那么数据分析就开始显出意义了。通过挖掘数据,奈飞不仅知道用户星期天晚上比星期一下午更爱看恐怖片,也能知道用户更喜欢用平板电脑观看视频,以及哪些地方的人更喜欢在星期天下午用平板电脑观看。奈飞甚至能够记录哪些用户在一集节目结束演职员表开始滚动时就关闭了视频。结果就是,奈飞比观众自身还要清楚他们的观影喜好。

《纸牌屋》并非个案,时至今日,数据已经像洪流一样在全球的政治、经济生活中奔腾,很多政府部门、企业都已经在尝试用大数据来进行决策和管理。2012年1月瑞士达沃斯世界经济论坛的一份报告中指出,大数据的价值堪比石油或黄金。

数据揭示的矿难真相

2010年4月5日,美国西弗吉尼亚州的一处煤矿发生爆炸,造成29人遇难,这是美国1984年以来伤亡最严重的一起矿难。

像中国一样,矿难之后,美国的互联网上民情汹涌,声讨责任的声浪此起彼伏。美国网民也在网上挖掘灾难发生的原因,但与国内盛行的“人肉搜索”不同,随着公共数据的大面积开放,美国民众可以通过数据发现真相。

矿难发生的当天,民众舆论的矛头首先直指政府主管部门——美国矿山安全健康局,第一个问题是:该局是否工作到位、监管得当?在矿山安全健康局的网站,可以查到这个煤矿一系列监管记录,包括检查的时间、结果、违反的法律条款、处理的意见、罚款的多少、已缴纳的金额、煤矿是否申诉等数据项。这些数据表明,该煤矿的安全早已亮了红灯。该煤矿仅2010年3月份就有53条违规记录,其中12条与地下逃生通道和通风设施有关。2009年,该矿共有515条违规记录,违规次数是全国煤矿平均水平的11.6倍。

既然早已劣迹斑斑,政府一而再、再而三地警告处罚,这个煤矿为何还是没有避免灾难?煤矿的老板是何方神圣,胆敢如此漠视政府的三令五申、顶风作案呢?一个网站公布了煤矿老板布兰肯希普的一系列数据资料,网民这才恍然大悟:布兰肯希普名下有46个煤矿,是当地政客的大金主。数据表明,自2003年以来,布兰肯希普下属的公司共捐出数百万政治献金,捐款流向了当地法官和议员。

至此,一幅充满数据细节的图像已经清晰地出现,显示灾难的发生与官商勾结有着重大关联。于是,网络舆论、新闻媒体开始了煤矿管理制度层面的反思和批判。如何完善制度、避免同样的悲剧在其他煤矿重演,一时间成为新闻舆论讨论的重点。

数据铺就平安大道

随着汽车的普及,道路交通事故也随之增多,并且逐渐成为一个突出的公共问题。美国从1960年到1965年,因交通事故而死亡的人数以每年近30%的速度增长。当时很多专家估计,如果不采取有力措施来扼制这个增长势头,死亡人数将在1975年达到10万。不过,交通事故的死亡人数在1972年达到历史最高的54589人后,就开始呈现不断下降的趋势,到2009年,死亡人数已降为33808人。

这个成绩的取得是极其不容易的。因为近几十年来,不论是人口、驾驶员还是机动车的数量和密度都成倍增长,车辆的使用频率也大幅增加,但交通事故的死亡人数却显着下降,从5万多人下降到3万多人。其中的原因除了汽车本身的安全性不断提高以外,政策的引导和管理同样起到了至关重要的作用。而交通安全管理局正是依据多年来的交通事故记录制定出了相应的政策和法规。

例如,通过分析全年的交通事故记录,人们很容易发现夏季明显是交通事故的高发期,每天晚上6点-9点是交通事故的最高发时段,但是周六这个时段的事故发生量比工作日还多。这说明不仅仅是因为上下班,即使休息,这个时段也是人们驾车出行最活跃的时段。如果从一周的时间段来看,周六、周日的零点-3点才是真正的致命时段,这个时段发生事故的原因有66%是酒后驾驶。有了这些数据,交管局自然可以更有针对性地制定政策,例如周末午夜时加强酒驾的检查力度,晚高峰期间加强疏导。

随着数据的累积和增多,人们可以做的分析和对比也越来越多。一起交通事故的数据可能是无序的,一年的数据、一个地区的数据也看不出太多的章法,但随着跨年度、跨地区数据越来越多,群体的行为特点就会在数据上呈现出一种秩序和关联,更多的规律也将浮出水面。

交管局就曾发现,尽管美国很多州都要求驾驶员必须佩戴安全带,但随后收集到的数据却表明这些州死亡率下降的幅度却各不相同。这个数据之差引发了政府对全国执行情况的检查和对比。后来发现,效果明显的州,警察有权力随时拦住汽车,检查驾驶员是否佩戴了安全带;而效果不太好的州,警察则只能在以其他理由拦住车辆时顺便检查驾驶员是否佩戴了安全带。这个发现促使多个州改变了各自的执法方式。

数据让行为更有针对性

沃尔玛拥有世界上数一数二的数据仓库,也是最早应用数据挖掘技术的企业之一。在一次例行的数据分析之后,研究人员发现:跟尿布一起搭配购买最多的商品竟是啤酒。尿布和啤酒听起来风马牛不相及,这种关联性着实令人费解,经过跟踪调查,研究人员终于发现了这种联系背后的原因:一些年轻的爸爸经常要到超市去购买婴儿尿布,有30%-40%的新爸爸会顺便买点啤酒犒劳自己。沃尔玛随后对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。

有些公司在做数据挖掘时还发现听过罗大佑现场演唱会的人,对上海大众某款汽车的兴趣度比其他人高出30%。经过分析,人们这款汽车的受众是35岁左右,希望提高生活品质的居家型的男性,这和罗大佑的受众非常一致。

谷歌有一个名为“谷歌流感趋势”的工具,它可以通过跟踪搜索词来判断全美地区的流感情况。如果诸如温度计、流感症状、胸闷等关键词出现的频率很高,谷歌系统就会进行跟踪分析,创建地区流感地图。其结果与美国疾病防控中心的报告大体一致。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论