看了《长安十二时辰》,你还相信大数据吗?

江湖豆腐
大案牍术分两部分构成,一个是由靖安司从各处调来的各种明档、密档构成的数据库,一个是以徐宾为核心的信息处理小组。

最近《长安十二时辰》热播,许多观众一直悬心于张小敬和小李必的生死,一边看一边发弹幕刷屏,但实际上这两个人有主角光环护体,可以被折腾得很惨,但绝对不会死。

如果要猜测一下生死,倒是可以猜猜靖安司主事徐宾的结局。这厮本来已经死两回了,但最终都活了过来。作为一个龙套,他是一个生命力顽强的龙套,最后死不死还真有点难说。(我知道答案,看过原着的,请不要在留言区剧透。)

今天我就想跟大家聊一下这位徐主事,以及他的大案牍术。

神奇的大案牍术

明眼人一看就知道,所谓的“大案牍术”这个词是马亲王杜撰的,这玩意儿其实是大数据在剧中的实际应用。

大案牍术分两部分构成,一个是由靖安司从各处调来的各种明档、密档构成的数据库,一个是以徐宾为核心的信息处理小组。

这个套路和当代的大数据分析本质上是一样的。

当代大数据的基础是各类数据的信息搜集,以及程序对这些数据信息的归类、演绎。靖安司主事徐宾,在靖安司这个系统里,充当的是中央处理器的角色。

那么,有些人可能就会奇怪了,“大数据”是一个很新的概念,为什么古人也会呢?

其实,“大数据”作为新词汇,确实是最近几年才出现,但这事儿本身并不新奇。当代的大数据产业胜在技术手段上,但这事本身而言,自古以来全球人类都已经在做了。

考古发现,早在公元前18000年的旧石器时代,就有不少部落首领在骨头、石器上刻下印记,来记录部落仓库里的各种物料,并以此推算未来,比如仓库里的粮食还够全部落吃几天之类。

公元前300年左右,古埃及托勒密王朝建立了亚历山大图书馆。这不是人类第一座图书馆,但它的藏书几乎涵盖了当时人类知识的所有领域,可以认为,它就是当时最完备的数据存储中心。不过,它后来毁于战火了。

中国人自古以来就有存储数据的习惯,比如大家看到的各种史书,实际上在古人眼里,那就是存储起来的数据。通过对历史数据的分析,执政团队可以对时下的政策作出相应的调整,以得到或者避免某种结果。

为了保证推演的过程中产生的偏差尽可能地小,人们对于基础数据的真实性要求是非常考究的。比如,政府对史官的要求是“秉笔直书”,东汉以来的“起居注”,更是以法律形式来保障基础数据的真实性。国家法律规定,帝王不能看起居注,更不能篡改它,如果他一定要看,史官必须写下“某年月日,上阅起居注”;如果他一定要改,史官必须对篡改前的原文归档,并对篡改之事做记录。

然而聪明的你,一定会明白,这种约束帝王的法律其实一点屁用都没用,纯粹是个花架子。

基础数据库的建立甚至可以追溯到史前文明时期,但真正科学意义上的数据分析则是另一回事了。

1663年,一位叫约翰·葛兰特的英国人,用他记录下来的黑死病死亡人数信息,建立起了早期的卫生防疫预警系统理论。这是人类史上第一次有记录的统计数据分析实验。

顺便一提,这位英国人其实并不是严格意义上的科学家,他是做布匹生意的商人,业余有点这方面的小爱好,成名之后才被人视为科学家的。

所以,大家也可以这样看待大唐天宝年间的徐宾。他其实是一位造纸商人,业余有个搞数据分析的小爱好,后来兼职在靖安司做了数据中心主管。

这也可以解释为什么每次靖安司大难临头的时候,徐宾都溜号回家去造纸。很显然,他可不愿意为了一份兼职把命搭上,忒不值当的,还是造纸更重要一些。

很多年后,人类发明了无线电波,发明了计算机,发明了互联网,还发明了5G,这些新的科学成就都被不断地被应用到数据存储和分析处理领域。

大数据时代来临。

大案牍术可信吗?

《长安十二时辰》里,徐宾刚出场的时候,是一个装神弄鬼的角色。

当然,他装得挺有仪式感,每次都把靖安司的人唬得一愣一愣的。

徐主事阅卷之前必定先净手,阅卷之后再郑重其事地封好档案,然后整肃衣冠,一边闭着眼睛想台词,一边用双手捻动脖子上挂着的珠子,暗示别人他并没睡着。要过上那么一会儿,他才会睁开眼睛跟旁边的人说,事情原来是这么这么回事儿。

本来徐宾的忽悠一直挺顺利的,但是他的上司小李必虽然少不经事,却毕竟不是一个智障。有那么一回,小李必终于开始怀疑徐宾,结果一查,事情果然有猫腻。

可想而知,小李必当时的心里肯定是有一万只草泥马奔腾而过:“我信你个鬼!你个糟老头子坏得很!”

从那一刻起,靖安司的书吏们都不跟徐宾握手了,大家都懒得搭理他。

那么问题来了,大案牍术,靠谱吗?

在李必拆穿徐宾捣鬼之前,靖安司上上下下都相信大案牍术,可以说,大案牍术是靖安司的根基所在。靖安司推导一切案件都以大案牍术为依据,从司丞李必到门口的卫兵,大家都相信,大案牍术是最公正、最客观的研判方式,因为数据没有感情,它不会像人类那样受到主观意识的左右。

但是,物联网是表象,真正催动大案牍术的核心依然是人。

当李必意识到这个真相时,心中信仰的大厦轰然倒塌,整个靖安司都面临着信仰重建的问题。既然大案牍术都靠不住,那么还有什么玩意儿靠得住呢?

李必收走了徐宾的钥匙,从那一刻开始,徐宾就在靖安司成了人憎狗嫌的存在。

为了在李必心里重建大案牍术的信仰,徐宾玩了一手欲擒故纵,他在造纸工坊给李必上了一课。他告诉李必,由于纸价上涨,而朝廷又不肯增加预算,导致基层的书吏们工作积极性缺失,于是书吏们在记录第一手数据的时候,越来越不认真。

徐宾的言下之意是,大案牍术的最底层数据就已经不靠谱了,所以局面搞成这个样子不能怪我忽悠你,我不忽悠你也改变不了大趋势啊!

徐宾的一番话又把少不更事的小李必给说服了,但是,小李必心中再度重建起来的大案牍术信仰远不如从前那帮坚定了。李必继续坐在靖安司办公室里装淡定毫无意义,倒不如学张都尉在长安城里钻来窜去的,好歹也锻炼了身体。

于是,李必就被各路暴徒打得头破血流。

这个故事告诉我们,大数据,也是有bug的。

首先,在这个世界里存在海量的信息,这些基础信息本身也是真真假假,真伪难辨。

其次,处理信息的程序本身也可能存在逻辑bug,它要是故意骗你怎么办?

另外,即便是这两项都没有问题,最终得出的结论依然是见仁见智。一千个观众就有一千个哈姆雷特,从同样的数据里,大家得出的结论也不尽相同,甚至有可能是截然相反的结论。

以上这些还只是客观上难以杜绝的问题,如果算上主动性的数据造假,那这事儿更是一团乱麻了。

在当代,现实中的大数据应用带来的改变也是一言难尽。比如前不久的周杰伦打榜事件,蔡徐坤占据超话榜首60周时,看起来威风八面,简直一代音乐教主的风范,但这并不意味着他真的就比排名低一大截的周杰伦强。

“刷数据这种没有半点技术含量的事情,谁不会啊?”

果然80后的大妈和90后的阿姨们一联手,00后的小坤粉们就滚一边哭去了。

我们应当在何种程度上信任大案牍术?

《长安十二时辰》是一部虚构的电视剧,大唐朝并没有靖安司,自然更没有徐宾这样的人存在。

但是,大案牍术是存在的。

自古以来,确实有不少很厉害的历史人物能够洞悉命运,能够预见未来。但是这不是什么神迹,这些都是一些罕见的高人在掌握了数据分析方法之后,根据大量的数据,分析得出的结果。

不过,在99%的人都是文盲的时代里,去讲这些道理没有用,像徐宾那样装神弄鬼搞得仪式感满满再来说结论,这才是高效率的上策。所以,戏剧里的诸葛亮都穿上了八卦仙衣,手拿白羽扇,时不时闭目掐指一算,就知道“今夜曹贼必来劫营!”

没办法,很多人就吃这一套。

于是在古代,大案牍术变成了一种神奇的存在,凡是掌握了大案牍术的人都会被文盲们奉若神明。

但是真正掌握了大案牍术的人,自己心里是清楚的:“这东西很有用,但它不是万能的。”

古代的读书人认为,他们学习的是圣贤治国之学,可以造福天下苍生;是天地间的大道,可以洞悉过去未来。实际上,前者学习的是数据库里的储存数据,后者学习的是分析数据的方法,只有同时掌握了两者,才能打开智慧之门。

然而,四库之书,经史子集,汗牛充栋,浩如烟海。一个人纵然天纵英才,皓首穷经,终其一生,亦不可尽读。数据库就已经无法穷尽,数据分析方法同样也很难运用纯熟。

所以真正掌握了大案牍术的人,既相信它,又怀疑它。徐宾就是这种人。

当代的情况其实也差不多,真懂大数据的人知其有所不能,只有那些外行才把大数据视为无所不能的神器。

结语

大唐天宝三年,距今已经过去1275年,时代早已发生了翻天覆地的变化,但唯有人性,几乎没有什么变化。

在当代,许多人对于科学的认知,依然和天宝三年的大唐子民们相去不远,要么视其为洪水猛兽,要么视其为绝世神迹。互联网没有改变这一点,大数据也没有改变这一点。

我近来时常遇到一些对数据有着谜之迷恋的人,言必称数据,认为世间只有数据不骗人。

比如某券商分析师列举了一大堆数据以说明某只股票是多么的有价值,殊不知这个坑就是一帮会计师专为数据党所挖下的。

比如某社交APP吹嘘平台上有多少美女入驻,你要是真注册了就会发现,每一个账号的背后都是抠脚大汉在陪你聊天。

这是一个科学拜物教的时代,之前是互联网拜物教,现在是大数据拜物教。

数据是有价值的,但它并非价值本身,读万卷书还要行万里路,否则就被书坑了。

李必没有被徐宾坑到底,他终究还是醒悟了,他心中重建起来的大案牍术信仰会和之前有极大不同。

古人云,尽信书不如无书。在当下,爆雷的白马股越来越多,尽信数据的投资人都快亏光了。

亏光了也好,不破不立嘛!

THEEND