本文来自微信公众号“根新未来”。
今天,我们的生活已经很难再脱离网络。虽然互联网给我们带来了前所未有的巨量信息,但这些信息却并不都是真实和有用的信息。事实上,今天的互联网中,有大量的机器人账号存在。机器人账号由算法来模仿人类的行为习惯进行操控,不需要真人的参与就可以自动完成发帖、评论和转发。
虽然大部分人并不了解甚至不知道机器人账号的存在,但机器人账号已经成为影响舆论和干扰数据的重要因素。那么,机器人账号到底为何而存在?又该如何被管理?除了造成虚假的信息泛滥,机器人账号还有没有其他用途?
庞大的机器人账号
机器人账号其实就是一种能够在社交网络上接收指令并模仿正常人类用户行为的智能程序。并且,随着人工智能的发展,从创建应用软件、官方网站或内容传播平台,到生产具有实质性内容的图像、视频或文字,通过或真或假或自动地与用户交互,今天,机器人账号已经越来越“真实”。
作为能模仿正常人类用户行为的智能程序,机器人账号最大的特点,就是庞大。早在2017年,就有研究人员报告了其发现的一个Twitter僵尸网络,其中包含超过35万个机器人帐户。这是一个具有难以想象比例的网络,它自2013年诞生以来就一直未被发现。
同年,来自美国马里兰州的网络安全公司ZeroFOX公布了一份研究报告,揭开了Twitter平台大规模垃圾色情邮件僵尸网络的冰山一角:根据报告,被ZeroFOX定点追踪、被称为“SIREN”的Twitter僵尸网络,包含超过90000个伪造的账号,总计发布了超过850万条包含恶意链接的推文。这些内容仅在调查结束前的数周之内,就产生了超过3000万次的推特用户点击。
中文网络舆论场的网络水军问题也很突出。打开手机,我们在社交媒体上收到的评论与转发,在问答平台上看到的点赞和收藏,微博时常莫名的关注,和直播营销好看的数据,这些与我们展开互动的陌生ID和互联网呈现给我们的数字现象,背后的控制者,很可能就是机器人账号。
微博大V动辄坐拥数千万粉丝,其真实性也很可疑。曾有“一找照妖镜”网站专查“活粉”比例,大V们近80%的粉丝都是僵尸粉。新浪微博里首个突破一亿粉丝的女艺人,我们不会真的相信是有一亿个人关注了她;百分百好评的商品,消费者也会对其持有怀疑;事实上,批量生产的机器人账号,流量造假的媒介狂欢,早已在中文社交网络上泛滥成灾。
庞大的的机器人账号背后,其实是产业链的发展。2018年1月,《纽约时报》刊发调查报道,就揭秘了美国的“僵尸粉制造工厂”。一家名为Devumi的公司在社交媒体上通过“造粉”和“卖粉”赚了上千万美元。而Devumi生产僵尸粉的流程就在于,先“复制”一批真实存在的网络用户的照片、资料和账户细节等,把它们做成“机器人粉丝”,然后卖给演员、企业家、政治评论员等“想出名或是想在互联网上施加影响力的人”。此外,Devumi还提供转发、点赞等服务。
这家“地下工厂”共造了350万个僵尸粉,而且每个僵尸粉都被多次买卖,累计起来提供的“假粉丝”数量超过两亿。Devumi不仅在推特上,还在拼趣(Pinterest)、领英和优兔等网站上开展生意。
机器人账号背后的生意经
机器人账号之所以能够催生出像Devumi一样的公司,根本上还是利益导向的结果。如今的互联网已经变身一个“唯流量”时代,流量在哪里,就以为着关注点在哪里,大家就认为市场在哪里。
传统媒体时代,主要的流量造假者大多来自传统媒体,报纸夸大发行量、广电对于收视听率的调查样本进行污染的情况时有发生。互联网时代,电商等新消费形态逐渐普及,对于转化率等数据第一次有了网络采集与对照的可能,流量造假就有了更强烈的需求驱动,点击率等指标被注水成为常态。
这是数据的时代,也是虚假盛行的时代。机器人账号造成的大量信息,不仅让虚假蔓延在互联网领域,基于机器人账号的流量造假、流量劫持,还会破坏商业模式,损害数据信息价值,造成大数据产业“劣币驱逐良币”。为了追求自身的利益最大化的流量造假,也违背了诚信的原则。而当数据造假成为一种产业,每个参与其中的人都因自身获利而或多或少助长了造假现象的持续蔓延。
此外,机器人账号也被广泛用于操纵舆论,而其背后往往是为了某一利益集团服务。在影响舆论方面,2018年麻省理工学院的研究团队,通过对Twitter舆论事件话题下的发言进行归纳分析,得出一个惊人的结论:只要保证充足的活跃度,哪怕实际数量还不到参与用户总数的1%,Twitter上的机器人账号,依旧能够影响舆论的风向走势。
这项研究的样本舆论事件,正是2016年的美国总统大选。通过对收集到的77563个用户样本展开分析,麻省理工学院的研究者筛选出了7702个不会改变立场的顽固用户;随后经过进一步筛选,总共锁定了396个僵尸账户——260个支持特朗普,136个支持希拉里,加在一起不到用户样本总数的5%。
尽管占比不高,但凭借远超真人用户的活跃度,这400个僵尸账户扮演的“意见领袖”,成功将双方候选人的观点推向极端化,为两边吸引了数量可观的真实支持者,最终实现了微妙的“平分秋色”。
而舆论操纵背后,有研究显示,有100多个支持特朗普的伪造网站都来自远在南欧巴尔干半岛马其顿的韦莱斯小镇,镇上的年轻人想趁美国大选发财,因此开设了“今日美国保守派”“唐纳德·特朗普新闻”等100多个网站,发布纯粹造假或严重掺假以固化读者偏见的新闻,如“教皇背书支持特朗普”“希拉里即将被定罪”“奥巴马说非法移民可以投票”等高点击量的假信息,并从谷歌和脸书广告分成,赚得盆满钵满。
布达佩斯中央欧洲大学媒体、数据和社会中心主任马里厄斯·德拉戈米尔(Marius Dragomir)指出,韦莱斯小镇的造假模式能够成功说明假新闻能够货币化。美国著名传媒专家罗伯特·麦克切斯尼(Robert McChesney)早就指出,市场的趋利性会伤害现有民主,眼里只有利润的商业化媒介集团一味迎合受众终将带来“极具破坏性、非理性的结果”。
虚假和真实的博弈
庞大的机器人账号不仅会破坏商业模式,带来不良的舆论影响,还难以清理和规制。比如,Facebook就频繁受困于流量造假,自它上线的第一天开始,就有大量与之相关的麻烦与官司缠身。其中的逻辑很简单,每一个体都能创建不止一个的脸书账户,当某个账户被拉黑、屏蔽,用另外的名字重新开一个就好。对于个人来说都如此轻而易举,换成机构化的组织就更不用说。
由此带来的是一场无止尽的猫鼠大战。一个账户被查封了,另外一个账户又出现了。庞大的用户数使脸书反欺诈团队头痛不已。根据美国媒体Vox的报道,2019年的一季度,脸书总共删除了22亿个虚假账号;2018年四季度,删了12亿个虚假账号;2018年三季度,这个数字是75万;而在2018年的第一季度,总共删了不到60万个虚假账号。换言之,虚假账号产生的速度是——60万到75万,75万到12亿,12亿到22亿。2019年,脸书一季度里删掉的假账号数量,已经等同于其平台一季度由真人注册的真实账号数量。
当然,在这个过程中,也有研究团队尝试开发检测机器人账号的工具。此前,印第安纳大学伯明顿分校的研究人员就开发了一个“BotOrNot”工具,以检测社交媒体上的机器人账号。BotOrNot是Twitter公开的第一个检测社交机器人的接口。该系统利用Twitter的搜索接口,收集待检测账号最近的200个帖子和最近被提及的100个帖子,从网络、用户、好友、时间、内容和情感等6类特征入手,判断该账号属于恶意机器人的可能性,经过十折交叉验证后发现随机森林模型的分类效果最好。
通过BotOrNot,研究人员分析了2016年5月至2017年5月推特用户分享的1 400万条信息,包括关于美国总统初选和特朗普就职典礼的信息。结果发现,围绕2016年美国总统大选的很大一部分话题都是机器人制造的。实际上,仅用6%的被确认为机器人的推特账户,就能在推特上传播31%的低可信度的信息。机器人账号只需要2~10秒就能完成这些事情。当低可信度信息与可靠来源信息混到一起时,人们就很难对其加以辨别。这一研究成果后来被发表在《自然通讯》(Nature Communications)杂志上。
此外,朴素贝叶斯算法、K近邻算法、C4.5决策树、支持向量机、随机森林算法等都已被用于识别社交机器人。此前,也有研究人员选取发文内容、发文数量、粉丝和好友数量、推文来源、用户注册时间、地理位置信息等7个特征,使用朴素贝叶斯的方法对Twitter上真实用户和星球大战僵尸机器人进行研究,发现机器人账户与真实用户在地理距离和连接属性上呈现明显差异,真实用户的推文数据呈幂率分布,而机器人呈现出均匀分布的特征。
还有研究人员提出了多种检测网络水军的算法,包括基于黑名单的算法、基于用户特征的算法以及基于文本的方法等。
今天,机器人账号都已经无可避米地渗透在我们的网络生活中,这是数据的时代,也是虚假盛行的时代,分辨这一切的虚假与真实,我们还有很长的路要走。