当你在使用浏览器、各种App或时候,是否思考过这样一个问题:为什么刚刚想到什么,在线广告很快就有针对性地把相关产品推送到的浏览器或者App信息信息流里了?这并不是什么大阴谋,只是现在的广告科技精准到令人发怵。而精准的背后,则是对用户更详细和重要的个人信息进行记录搜集。
科技巨头甲骨文公司是硅谷少数几家在互联网跟踪技术方面能力出众的公司之一。该公司近年来花费了数十亿美元投资并购初创企业,以建立自己的用户网络浏览数据全景画像。其中一家初创公司叫BlueKai,甲骨文2014年以4亿多美元代价将其收购,这家公司在市场营销圈外鲜为人知,但它可能是联邦政府以外聚集了最大规模的的网络跟踪数据的企业之一。
BlueKai使用网站cookies和其它跟踪技术来跟踪你的网络。通过了解你访问的网站和你打开的电子邮件,营销人员可以利用大量的跟踪数据尽可能推断出你的情况——你的收入、教育程度、政治观点和兴趣等等,从而根据你的数据画像投放符合你口味的广告。如果你点击,广告媒体就会赚钱。
但据知情媒体披露,有一段时间,由于其一台服务器没有密码,这个安全漏洞使网络跟踪数据泄露到开放的互联网上,数十亿条记录被暴露,可供任何人查找。安全研究员Anurag Sen发现了这个数据库,并通过一个中介人——Roi Carthy,网络安全公司Hudson Rock的首席执行官和前TechCrunch记者,向甲骨文报告了他的发现。TechCrunch查看了Sen共享的数据,在数据库中找到了姓名、家庭地址、电子邮件地址和其它可识别的数据。该数据还显示了敏感用户的网络浏览活动——从购买到退订邮件列表。
电子前沿基金会(Electronic Frontier Foundation)的技术人员Bennett Cyphers对TechCrunch表示:“我们真的不知道这些数据会有多大的暴露。”
甲骨文发言人Deborah Hellinger说:“甲骨文知道Hudson Rock的Roi Carthy所做的报告,该报告与某些可能在互联网上曝光的BlueKai记录有关。”“虽然研究人员提供的初始信息不足以识别受影响的系统,但甲骨文的调查随后确定,有两家公司没有正确配置其服务。甲骨文已采取额外措施,以避免这一问题再次发生。”
甲骨文并没有说明这些额外补救措施是什么,安全研究员Anurag Sen认为,这个公开数据库的庞大规模可能是今年最大的数据安全漏洞之一。
数据的大熔炉
BlueKai依靠从各种来源收集永无止境的数据来了解互联网用户画像和意图,从而向人们提供最精确的广告。
营销人员可以利用甲骨文庞大的数据库,包括信贷机构、分析公司和其他消费者数据源,包括每天数十亿个地理位置数据点中提取信息来定位广告,营销人员也可以上传直接从消费者那里获得的数据,例如你在网站上注册帐户时所交出的信息。
同时,BlueKai还使用了更多隐蔽的策略,例如在许多网站在页面嵌入不可见的像素代码,以收集有关网页访客的信息、硬件、操作系统、浏览器以及有关网络连接的更多信息。这种数据被称为网络浏览器的“用户代理”,单方数据似乎并不敏感,但当融合在一起时,它可以为一个消费者的设备创建一个独特的“指纹”,在他们浏览互联网时可以用来跟踪这个消费者。
BlueKai还有能力实现跨屏分析,可以将你的移动网络浏览习惯与台式电脑活动联系起来,让它在互联网上跟踪你,无论你使用哪种设备。
图:基本的用户数据搜集流程
假设某位营销人员试图推广一种新车型。就BlueKai而言,它已经具有“汽车爱好者”类别,以及许多其他更细分的子类别,营销人员可以使用它们来定位广告,访问过汽车制造商网站或被BlueKai跟踪的任何人都可能被归类为“汽车爱好者”,随着时间推移,该个人资料将被分类到不同的类别中,大数据分析会尽可能多地了解你,从而可以通过精准广告来不断影响你。
在保障用户私人数据的情况下精准推送广告,现在人们也是可接受的。在幕后,BlueKai不断根据每个人的个人资料摄取和匹配尽可能多的原始个人数据,并不断丰富该个人资料,以确保其更新和相关。
虽然这项技术还远非完美。今年早些时候,《哈佛商业评论》发现,甲骨文等数据经纪商所收集的信息质量可能存在很大差异。但事实证明,其中一些平台的准确性惊人。普林斯顿大学科学教授Jonathan Mayer告诉TechCrunch,BlueKai是关联数据的领先系统之一。“如果你让浏览器同时发送一个电子邮件地址和一个跟踪cookie,这就是你需要建立的连接,”他说。最终目标:BlueKai收集的信息越多,它就越能推断出你的情况,从而更容易吸引你点击广告创造收益。
但一位营销专业人士告诉TechCrunch,营销人员并不能登录BlueKai,然后从其服务器下载大量个人信息。数据是经过脱敏和加密的,营销人员永远看不到姓名、地址或任何其它个人数据。正如Mayer解释的那样:BlueKai收集个人数据;它不与营销人员共享。
细思恐极的泄露
在幕后,BlueKai不断地获取和匹配尽可能多的原始个人数据,并根据每个人的个人资料进行匹配,不断丰富个人资料数据,以确保其是最新的和相关的。
但正是这原始数据从数据库中被泄露。
TechCrunch发现了包含私人购买细节的记录。其中一份记录详细记录了4月19日,一名德国男子(他的名字被我们隐掉了),用一张预付借记卡在一家电子竞技博彩网站下注10欧元。记录中还包括这名男子的地址、电话号码和电子邮件地址。
另一项记录显示,土耳其最大的投资控股公司之一是如何利用BlueKai在其网站上跟踪用户的。这份记录详细记录了一位住在伊斯坦布尔的人是如何从一间家居用品商店在线订购价值899美元的家具的。我们得以知道这些,是因为该记录包含了所有细节,包括买方的姓名、电子邮件地址和买方订单的直接网址。
我们还看到了一条记录,详细记录了一个访客是如何从一个消费电子产品的电子邮件推广中退订的,邮件是发送到他的iCloud地址。记录显示,此人可能对某一特定型号的汽车行车记录仪感兴趣。我们甚至可以根据他的用户代理(UA)判断他的iPhone已经过时,需要软件更新。
据发现数据库的Sen说,这些数据可以追溯到几个月前。他说,一些日志可以追溯到2019年8月。
EFF的Cyphers说:“对人们上网习惯的细颗粒数据记录可以揭示出他们的爱好、政治倾向、收入等级、健康状况、性取向,甚至赌博习惯。”“随着我们越来越多地生活于网上,这类数据也收集到我们越来越多的消费时间。”
甲骨文拒绝透露是否将安全漏洞告知了那些数据被曝光的人。该公司也拒绝透露是否已就此事向美国或国际监管机构发出警告。根据加州法律,甲骨文等公司必须公开披露数据安全事件,但甲骨文迄今尚未宣布该泄露事件。当记者联系到加州总检察长办公室的一位发言人时,他拒绝透露甲骨文是否已将此事告知该办公室。根据欧洲的GDPR规则,公司可能会因藐视数据保护和披露规则而面临高达其全球年营业额4%的罚款。
无处不在的追踪代码
BlueKai无处不在——即使你看不见它的追踪技术。
据业内专家估计,BlueKai追踪了超过1%的网络流量,这是一个海量的每日数据收集规模,并包含了追踪一些世界上最大的网站的访客:亚马逊、ESPN、福布斯、Glassdoor、Healthline、Levi’s,MSN.com,RottenTomatoes,还有纽约时报。甚至本篇文章(TechCrunch.com)也有一个BlueKai跟踪器,因为我们的母公司Verizon Media是BlueKai的合作伙伴。
BlueKai并不是唯一进行这种操作的公司。几乎你所访问的每一个网站都包含某种形式的不可见跟踪代码,当你浏览互联网时,这些技术会对你进行分析。尽管隐形追踪器正在把你的网络浏览数据输入云中的一个巨大的数据库,但正是这些数据让互联网内容和服务基本上保持了免费。为了保持免费,网络媒体利用广告创造收入。广告的针对性越强,媒体收入就会越好。
虽然大多数网络用户不至于天真到认为互联网跟踪不存在,但很少有市场营销圈外的人了解收集了多少数据以及如何处理这些数据。以2017年的Equifax数据泄露事件为例,该事件在未经立法机构明确同意的情况下收集了数百万消费者的数据,招致立法机构的严厉批评。像BlueKai一样,Equifax依赖于消费者跳过冗长的隐私政策,这些政策规定网站如何跟踪他们才是合法的。
无论如何,消费者别无选择,只能接受这些条款。只能被跟踪或选择离开,这就是免费互联网的两难取舍。但收集数百万人的网络跟踪数据是有风险的。
Cyphers说:“无论什么时候存在这样的数据库,数据都有可能最终落入坏人手中,并有可能伤害他人。”这些数据如果落入恶意用户手中,可能会导致身份盗窃、网络钓鱼或跟踪。他说:“这也成为了执法部门和政府机构一个重视的目标,他们希望充分利用甲骨文已经完成的数据收集工作。”Cyphers表示,即使这些数据保持其原计划的营销用途,这些庞大的数据库也能够“为政治目的或舆情操控的广告服务,并允许营销人员根据特定的弱势群体调整信息。”
“每个人都有不同的事情想保密,也有不同的人想保密,”Cyphers说。“当公司收集原始的网络浏览或购买数据时,成千上万关于真实人们生活的小细节会被一路挖掘出来。”他说,“这些小细节中的每一个都有可能使某人处于危险之中。”