04 大国不能不识数

数据是观察现代社会的一个角度

这两年中国的学术界和互联网应用界出现了一个大名人,他叫涂子沛,因为他写了一本书,叫《大数据》。这本书我曾经推荐过,真的很好看,里面有大量新鲜的故事和独特的角度。我是用两天时间一口气把它看完的。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

就在我看完之后不久,我在一个论坛上遇到了这位涂先生,而且很巧,我俩就坐在一起。我像一个粉丝一样,表达了各种倾慕之情,然后就打听他接下来要写什么书,等着拜读。涂先生说,他要接着写《大数据2》,他想把美国历史和数据这两个概念结合起来写一本书。

我听了他这个写作计划之后,心里是不赞同的,原因有两点。

第一,替涂先生考虑。你好不容易在大数据这个高大上的概念上占据了意见领袖的位置,你应该往前写,写写大数据引导人类之类的话题,这样那些互联网公司才会请你去搞演讲,大学才会请你去搞讲座啊。你现在转身形去翻故纸堆,能有多大出息呢?能够形成什么样的声势呢?

第二,大数据这个概念的出现不过是近几年的事情,如果你非要到美国历史当中找一些跟这个概念相关的事实,也不是不可以,但是多少会有一些穿凿附会。就像我们研究现代恐怖主义,有人说,我们中国早就有恐怖主义,我们春秋战国那会儿就有荆轲刺秦了。虽然说得也对,但是你不觉得有些穿凿附会,而且对这个现象本身缺乏洞察力吗?

但是万万没想到,两年之后,涂子沛先生把这本书捧出来了,叫作《数据之巅》,我看完之后感觉非常震撼。这哪里是讲什么大数据?哪里是讲什么美国历史?分明是从数据这个全新的角度,替我们解释了一遍什么叫作现代文明,什么叫作现代文明的生活方式,什么叫作美国式的大国崛起。

为什么数据是观察现代社会的一个角度呢?我们先回到20世纪70年代初。

回避对人命的计算,恰恰是对人命的轻贱

话说1971年的时候,美国福特汽车公司推出了一款新车型,叫平托车。这种车很小,耗油量又低,卖得还特别便宜,2000美金就能买上一辆。明眼人一看就知道,这是福特汽车为了对抗当时德国车和日本车在美国市场上的攻势,做的一次绝地反击,是一款战略型的产品。

平托车投放市场之后反响不错,但是所有新车型遇到的考验,可不光是什么客户满意度、价格,更重要的一个数据就是交通事故率。平托车在这方面的表现应该说是不错的,因为从1971年到1977年发生的恶性交通事故总共是500起。同时期推出的五款车,在交通事故率的表现上,平托车是第三名,正好处于中游,是交代得过去的一份答卷。

但是平托车有一个问题,就是它的油箱设计和其他车有点不一样,其他车的油箱都是放在后轮轴承的上面,而这款车放在了后面。它的隐患就在于,一旦后车追尾,容易引发油箱的爆裂,甚至是爆燃和爆炸。

果然,1972年,也就是这款车投放市场的第二年,在美国的加利福尼亚州的高速公路上,出现了这么一桩事故。两个年轻人开着车,被后车追尾撞了,引发了大火,一个人当场死掉了,另外一个人被大面积烧伤。

在交通事故当中,有一个非常残忍的逻辑,对商家来说,伤者还不如死了。人死了之后,他赔一个固定的数额就完了;一旦出现重伤,什么医药费、后半生的生活费就会没完没了,还会引发诉讼。这个活下来的年轻人就一纸诉状把福特汽车告上了法庭。

大家都知道,在美国打这种官司通常都旷日持久,从1972年一直打到了1977年。官司还没有落幕的时候,有一个叫道一的记者发表了一篇文章,叫《疯狂的平托》。这篇文章和这个还没有落幕的官司,一下子把福特汽车公司推到了当时舆论的风口浪尖上,在美国汽车历史上留下了一桩著名的公案,就是“平托车公案”。

这篇报道到底写了些什么呢?道一通过大量调查发现,福特汽车公司不是不知道平托车的设计有毛病,工程师已经发现了这个毛病,而且把这个问题提交到公司管理层了。更可怕的是,福特汽车公司是知道的,只要多花11美金—请注意这个金额,区区11美金,就可以解决这个设计上的毛病。

道一在文章里问道,为了省下11美金的成本,就把那么多条性命放在大火中燃烧,资本家的心是黑的吗?

真正的黑幕还不仅于此。这11美金是怎么算出来的?道一给福特汽车公司打了一张草稿,说他们是这么算的—福特汽车公司那个阶段生产了1000多万辆汽车,如果每款车都多花11美金的话,那就是将近1.4亿美金的成本。如果不花这11美金,任由这个缺陷存在,任由引发交通事故,顶多赔多少钱呢?按照要死180个人、伤180个人、撞毁5000辆左右的轿车来计算,还不到5000万美金。拿5000万美金和1.4亿美金一比,拿大脚趾头想都知道怎么投票了吧?所以福特汽车公司的高层当时就是这么做的决策,成本收益两相对比,选择不花这11美金。

问题的关键不在于福特公司抠不抠,关键在于这背后的逻辑太可怕了。原来性命在商人眼里就是这么一个单调的数字,原来通过成本收益法这么一平衡,福特的高层就会心安理得、非常理性地做出决策,把那些人送到火海里去。这才是道一这篇文章真正的力量所在。

大家注意下这个时间,1977年,新闻界把尼克松总统掀翻的水门事件就发生在三年前的1974年。这个时候媒体的力量是极大的,有点像中国前几年的“3·15”晚会,只要它一爆黑幕,一家公司就完蛋了。福特汽车公司虽然是美国汽车产业的中流砥柱,也架不住这样的黑幕爆料。

在紧接着的1978年,印第安纳州也发生了一场一模一样的事故,一辆平托车被后车追尾,然后爆燃,死在车内的是三名花季少年。想想看,这对舆论煽风点火的作用有多大?所以福特汽车公司一下子就难以招架了。

当然,福特汽车公司毕竟是大公司,有的是钱可以雇好律师,在法庭上也对道一这篇文章做了很多反击。比方说福特汽车公司说,我们没生产那么多汽车,你不能那么算,这款平托车从投放市场一直到现在也不过卖了几百万辆。

但是,不管福特汽车公司在法庭上如何抗辩,这个逻辑它躲不过去。后来又曝光了一些文件,证明福特汽车公司这款平托车根本没有通过20英里碰撞实验—汽车公司必须试验当速度是20英里每小时的时候,汽车撞烂了之后会发生什么样的事故,会不会发生油箱爆裂。刚开始是没通过的,后来福特汽车公司通过加固油箱,把这个碰撞实验勉强混过去了。

但是后来有材料发现,只要再多花15.3美金,就可以把这款车承受碰撞的标准从20英里每小时,提高到34~38英里每小时,请问福特为什么不多花这笔钱?福特不要再在法庭上计较那些细枝末节了,这个残酷的逻辑是绕不过去的。

在这篇报道当中,道一把最后的矛头指向了一个数字,一个在成本收益计算法当中最关键的数字:请问一条人命多少钱,这是怎么得出来的?

在福特汽车公司的算法当中,一条人命值20万美金。但是把20万美金一摊开,会发现里面有些算法荒唐之极。比如说这20万美金的构成里面有一条,1万美金是为一个人临死时承受的痛苦而支付的。人命至重,人命无价,在美国这种基督教文明的国家,自杀都是不被上帝允许的,你福特公司怎么能用这么一个轻描淡写的数字,来给人命框定一个价格呢?

道一这个指责搁在今天,那是掷地有声,公知范儿十足。当然道一还做了一些小创新,比如说他在这篇报道的结尾留了一块地方,叫“请愿信”,请所有看到这篇报道被感动、感到愤怒的读者,把这封请愿信剪下来,装到信封里给国会寄过去,要求福特汽车公司召回这款车。

这有点儿像我们今天在微博上骂一个人—“呸”,后面的人也骂“呸”,保持队形,形成一个很有趣的文化现象。当时无数的民间请愿信,雪片一样地向国会飞过去。

最后怎么样呢?还用说嘛,福特汽车公司输掉了官司,赔了那个年轻人250万美金,然后法庭还判处它350万美金的惩罚性罚款。

时隔这么多年,我们也可以尝试着心平气和地去理解一下福特汽车公司当年的道理。它的道理无非就是两个,第一个道理,安全这件事是没有尽头的,人类文明到现在为止也不可能保证生产出一辆绝对不发生交通事故的车。请问,要花多少钱,来救多少人呢?

举个例子,如果公司发现,花100万美金改进某项安全措施,明年可以减少两例交通事故死亡,请问要不要投资?如果投资,就意味着人命50万一条。如果一亿美金才能救两个人,请问还救不救呢?如果你的答案都是人命无价,得救,那整个汽车产业就崩溃掉了,因为没有办法做了,一辆车的成本就会无穷大,这个市场就会消失了。

如果我们坚持要搞市场经济,那对不起,必须给人命定一个价,以便企业主做出理性的决策。马克斯·韦伯不是讲过,资本主义就是用计算的方法来决定所有的市场行为。没有理性的决策,哪有合理的市场行为呢?

第二个道理,不管怎么讲,人命至重,人命无价,整个人类的资源是有限的。假设你是国家总统,一年的预算就这么多,请问,我们是建一个水坝来防洪保护人命;还是多向癌症研究投点资金,来保护人命?只有给人命标定一个价格,看看洪水潜在的危害会害死多少人,癌症会害死多少人,这样一比较,我们才能够决定这笔钱怎么投。没有这个标准,国家的大政方针、财政资金的投向就没有了依据,这个社会不就乱套了吗?

所以,有的公知反复说人命至重、人命无价,就是没有回到社会的运行场景来重新理解这个问题。

其实有好多这样荒唐的例子。2003年《中国青年报》就有一个报道,说一个小青年骑摩托车把人家一条狗撞死了,自己也被弹飞出去,死掉了。最后这家要赔人命,那家要赔狗命,最后法庭判决的结果是,赔狗1.4万,赔人1.9万。死人这一家苦主把诉讼费一交,只拿到手几十块钱。

这不荒唐吗?可是这个荒唐是怎么造就的呢?就是因为狗是有价的,一条狗值多少钱,到狗市上一打听就知道,名贵品种1.4万一条实属正常。

人怎么算呢?中国司法没有一整套计算人命的合理的标准,而且这方面的东西大家一向回避去谈。所以只能根据一生的收入的折现法,算出来一条人命就值1.9万。回避对人命的计算,最后导致的恰恰是对人命的轻贱。

写到这儿,我才把这篇文章真正的难点暴露给大家,就是按照通常的对社会、对生命、对生活的理解,我们是不同意把很多东西数据化的,但是社会运行又特别需要一个数据,作为我们共同对话的一个条件。那请问,我们是要数据还是不要数据呢?

如何计算人命才算合理

我是倾向于人命要有一个计算价格的。但是你可能会提出一个质疑:人命怎么算得清楚呢?如果所有计算人命的方法都是错误的,没有人命的计算方法会导致社会的混乱,那在永恒的错误和永恒的混乱之间,你让我们怎么选择?

我必须承认,这确实是一个问题。美国人也为这个问题头疼了很多年,一直疼到今天。现在在美国,也是国际上的主流,计算人命的方法大概是这么几个。

第一个,叫未来收入折现法。你这个人不是死了嘛,那我假设你活到一个平均岁数,按你现在干的职业算出你一共会有多少收入,这就是你这条命的价格。为了照顾同命同价的问题,我们在全国再搞个平均数,这不就算出人命的价格了吗?

但是大家想一想,一个人一生当中,没准儿会换几次职业,我今天搞脱口秀,明天可能就当了总经理,我的价格就不一样了。而且一个人的生命价值,也不是只体现在他挣多少钱上吧!我们隔壁有一个女神,天天在走廊上梳头发,虽然她没靠梳头发挣钱,我走过去看一眼,心情就舒畅,我今天的收入就会增加,这也是一个社会的正向效益,这种东西怎么算?所以这个方法不妥。

美国在20世纪五六十年代有一个经济学家,叫谢林,谢林又发布了一个新的方法,后来他就靠这个得了诺贝尔经济学奖。他的方法叫价值意愿法。就是一个人值多少钱,我们搞投票来统计。看看全美国人民愿意为挽救一条人命纳多少税,然后再平均下来,这样就可以测算出一个数值,来作为这个时代人命的价格。就是看我们大家认为,一条命值多少钱。

这个方法似乎也是奏效的,但是仔细一推理,发现也不成立。比如美国国徽上的白头鹰是一个濒临灭绝的品种,美国政府在20世纪90年代曾经做过一个调查,调查的目的是想知道美国人民为了挽救白头鹰愿意花多少钱。

调查结果出来,每个家庭大概愿意花257美金,美国大概有一亿个家庭,那就要花257亿美金去保护白头鹰。这个数字算出来之后,很多学者就摇头说可能不对。因为太乐观了,这只是问卷调查,没让他们掏真金白银,真要是征税,能征得上来吗?

没有死人的时候,大家会说愿意花多少钱来保护一条人命,真的要人们把现金往桌上一搁的时候,人们愿意掏出来的那个金额和之前那个金额,还一样吗?所以这个方法似乎也不奏效。

当然,在美国历史上,尤其近100年来,关于怎么折算一条人命的价格,有各种各样的算法,各种各样的细则。但是结论都一样,就是没有一个算法能让所有人都满意。这就是用数据方法来进行社会交换和价值评估遇到的一个永恒的问题。

数据是一个会生长的生物

我们今天把这个问题反过来看会发现,数据不是一个简单的数,而是一个会生长的生物。数据本身是有进化能力的,只不过在很多条件的约束下,比如说技术手段、价值观念,它这种进化有的时候会受挫。比如说人命的价格的计算,就是典型的受价值观的影响而很难进化的一个数据。但是其他的数据,在历史的进程当中,往往会不断地被修正,最后被所有人大体接受。

我给大家举两个例子,都见于《数据之巅》。第一个例子发生在美国南北战争前,那个时候南北双方正就要不要维持奴隶制的问题吵得一塌糊涂。有一天报纸上突然出现了一个数据,请注意,这个数据可不是南方的奴隶主搞什么阴谋诡计假造的,而是北方的联邦政府在做人口调查的时候得出来的—在北方生活的黑人,每162个人当中就有一个是精神病患者或者智力低下者。而南方好了10倍不止,每1600个黑人当中才有一个精神病患者或者智力低下者。

这个数字就这么板上钉钉地搁在这儿,报纸的评论员看到这个数据总得写几篇文章吧,跟今天的公知一样,总要往体制上找原因。那你想想看,往下会得出什么结论?

结论就是,黑人一自由,马上就发疯。南方奴隶主说,黑人原来在我这儿好得很,天天吃得饱穿得暖,虽然没自由,但是我们主人保护他们,他们有非常安全的环境,所以他们的精神、健康状态是良好的。可是因为种种机缘,他们获得了自由身,跑到了北方,你们北方搞的是万恶的资本主义制度,黑人是住在贫民窟里的。而且你们北方也是歧视黑人的好不好,黑人们作为无产阶级,朝不保夕,天天吃不饱穿不暖,他们的精神状况能不出问题吗?所以这个结论板上钉钉:黑人一自由,马上就发疯。

北方人吃了一个大瘪,但是没办法,数字就摆在那儿。这个时候马赛诸塞州有一个精神病大夫叫贾维斯,他不信这个邪,他认为这个数据肯定是错的。他可不是猜想出来的,而是从他身边的观察得出来的。

他生活的这个城镇,在人口普查表上有133个黑人精神病患者。他就是精神科医生,还能不知道这镇上有多少黑人精神病患者吗?一定是数据出了问题。于是他就调查周边的市镇,发现也一样,这数字比实际大得离谱,他就发了一个心愿,一定要推翻这个结论。

那怎么办呢?既然是人口普查得出来的结论,那就去找人口普查的表格。要知道,那个时候美国的人口普查已经是非常大的量级了,他发扬了死磕精神到全国各地去找这种表单,然后去计算。算来算去,一声长叹,怎么了?没有算错,最后结论就是161:1。

哪儿出了问题?只有一个可能:人口普查的第一手数字就已经有了问题。是南方奴隶主派了一堆间谍,到北方伪装成人口普查员,然后得出这个数据的吗?肯定不是,因为人口普查员是一个分散的结构。

查来查去,一直到1850年才真相大白,原来是北方的人口普查表格的设计上出了问题,导致人口普查员把白人精神病患的数字也填到黑人那一栏里。本来北方的黑人数量就少,稍微有几个填错,在统计学上就很容易把这个初始的错误放大,得出那个荒腔走板的结论。

为什么要讲这个故事?因为数据本身有一种自生长的能力,这不是说数据本身是活的,而是只要一个事实,你不做定性判断,而做定量判断,把它定格为一个数之后,它就要去经受所有人的挑剔、批判,甚至是推翻。于是,大家的对话就有了一个工具,有了一个介质,有了一个对象。贾维斯医生就扮演了这样一个挑战者,他通过自己的努力推翻了这个不实之数,让事实回到原状,这就是数据的作用。

再讲一个例子,美国的第三任总统杰斐逊执政时期,定下来一个规矩:美国任何由国家主导的大型工程建设一定要适用成本收益分析法。国家预算是有限的,所以一定要挑选那些最优化的项目率先实施。

这作为一个原则没问题吧?有问题,为什么?因为所有人都是有私心的。比方说,美国刚建国的时候,主要的工程建设是水利工程,由美国陆军的工程兵团来干。可是工程兵团也是人啊,这个兵团的司令是哪个州出来的人,对哪个州的项目,哪怕不是搁在明面上,在心底里总是有些小照顾的。

这个照顾其实很好办,就是把收益算大。因为一个公共工程的收益是很难算得清楚的,比如说一个大坝建成后,总有防洪收益、灌溉收益、军事收益,没准儿还有点观光旅游收益,那就看你怎么算了。算来算去,如果他有意偏向,把一个项目的收益算大是有可能的。全国每个州每年会报上来上百甚至上千个项目由工程兵团一家来做决定,难免就有这个弊端。

弊端来了怎么办?不怕,美国人有的是办法。他们紧接着设立了第二个部门,叫农垦局。看起来好像是重床叠架,但是这个设计是有深意的。因为农垦局是管美国的农田灌溉的,也管建坝和水利设施,这样在客观上就跟美国陆军的工程兵团产生了竞争。

一个项目归谁建或者先建哪个,两家都要拿出报告,把所谓的成本收益核算出来。这个时候就会出现竞争的态势,大家就各想各的招。

工程兵团有一次算一个水库的收益,把海鸥都给算进去了。说建成这个水库后,会来一万只海鸥,按照一只海鸥一年吃一千只蝗虫、一只蝗虫每年要吃掉一公斤的麦子计算,一下子就算出了一个天文数字。你看,我建这个水库,竟然替美国人民避免了这么多粮食不入害虫之口。

农垦局的小伙伴们一看,有没有搞错,这个也能算进来?好,这一招你会玩,我也会玩,那我就算算次级收益。因为我主要管灌溉,一个水利工程建成后能灌溉一片农田,因为这个地方灌溉条件好,很多农民就往这儿迁,很多大卡车帮着搬家,不就多了加油站吗?等人多了之后,这个地方就会出现电影院,电影院出现之后就会出现大商场,大商场出现之后就有很多人来观光,这个地方就会变得很繁荣。这叫次级收益,就是一层一层推导出来的收益,又算出一个天文数字。两家一直在这么斗。

最典型的是罗斯福总统在任期间,有一个工程,两家又争抢起来了。最开始,陆军的工程兵团算出来的成本收益比是2.4,所以这个项目该建,而且应该由我来建。农垦局的报告紧接着递上去了,说同意建,这个项目确实收益远大于成本,但是我农垦局算出来的不是2.4,是4.8,整整比工程兵团多一倍。但是如果我们农垦局来建,我们主要发挥这个大坝的灌溉功能,所以我们的方案才是最好的。

最后吵到了国会那里,国会一脑门子的糨子,说让罗斯福总统去定吧。罗斯福一看,我又不是水利专家,搞不清你们这些事,谁算出来的数字大,我就让谁干。于是农垦局就把这个项目给拿走了。

别以为只有两个部门在争国家的预算,很快又杀进来第三家。20世纪40年代,铁老大也杀进来了。因为陆军工程兵团和农垦局天天开凿运河什么的,耽误铁路公司的生意,所以它们不干了。

40年代有过这样一个案子,阿肯色州要开凿一条运河,当时农垦局和陆军工程兵团都报了方案,最后铁老大在旁边冷冷地哼了一声说,把这么多预算给我,我能修两条铁路,而且永远免费给国家运输物资,你们就别修运河了。弄得前两家单位臊眉耷眼。

当数据摆出来之后,它就能引发一种态势,叫竞争,各个部门都会围绕数据进行计算。所以20世纪40年代之后,美国各个国家部门都兴起了一股数据浪潮,其实是人潮,什么人?经济学家和统计学家。如果你不养活几个统计学家和经济学家,算账算不过其他部门,在国家预算的竞争中,你就会落败。

看到这儿,你可能会想到法庭。法庭上就是这样,原被告双方的是非曲直法官是不清楚的,法官就像傻子一样往这儿一坐,先让原告说说被告做了什么,然后被告拿出一个个的证据进行辩驳,最后原被告双方抗辩。法官只要有常识即可,他不需要对每一个领域都是专家。因为在竞争当中,在抗辩当中,不是让法官来找证据的缺失,双方律师就会盯着对方的逻辑漏洞和事实漏洞。

这就是数据摊开到桌面上的一个好处,数据的成长,数据的进化,并不是靠数据本身,而是利益完全对立的双方都盯着对方数据的逻辑漏洞和事实漏洞,所以数据就会变得越来越精准。

在美国的水利工程建设方面,最后也演化到了这样的状况,大家都打累了,坐下来谈判,形成了一本绿皮书,约定以后再搞任何工程的收益计算,都要按照统一的标准来算,比如说旅游观光收益怎么算,病虫害的收益怎么算。从客观上讲,这套标准只要写出来,白纸黑字摆在桌面上,总是有毛病的。所以这本绿皮书此后又经过了几次大的改版,但是没有办法,没有这个东西,大家就没有办法形成良性竞争。所以不管哪个版本的绿皮书,无论它有多少毛病,都是几方利益达成的一个平衡点。

我们再回头去看杰斐逊当年确立下来的这个原则,它最终通过数据的方法落了地。所以数据不是一个死东西,也许起点是不靠谱的,但是只要引进竞争,只要对人性有充分的估计,最后会达到一个大家都能认可的平衡点。

数据文明奠定了现代化的基础

我讲了很多数据的好话,但是有一个小问题没有解决,就是当数据和人伦道德之间产生冲突的时候,我们应该怎么选。就好比前面举的那个例子,一条人命放在这儿,你可不可以用数据标定一个价格?不管你怎么选,都会发现自己陷入了道德上的两难。

在美国历史上就曾经遇到过一个类似的困境,南北战争前,北方人跟南方的奴隶主说,你们不是不给黑人政治权利吗?可以啊,那你们南方在选众议院议员的时候,黑人人口就不能计算在内。说白了,就是打压南方州在众议院的代表人数。

南方的奴隶主说,行啊,这没有问题,那我们给联邦纳税的时候,黑人人口也不应该计算在内。北方说,这不是占我们便宜吗?你们南方主要的劳动力是黑人,主要靠他们创造财富,这些人不算在内的话,纳税的时候你们不就纳得很少了?南方人说,要么给议席,要么你们不要税收,看着办吧。

所以,南北双方就不能只在原则上进行争议了。双方最后说,我们把一个黑人人口折算成多少个北方的白人人口,不就完了吗?谈来谈去,吵来吵去,最后得出了这个数:3/5。一个黑人算3/5个白人。

听到这儿,你心底也许已经发出正义的怒吼了,这不是赤裸裸的歧视吗?都是上帝的子民,凭什么一个黑人只能算60%的人呢?这确实不公平,也不合理。当时的与会代表哈密尔顿讲过一段话:3/5这个数当然有瑕疵,但是又能怎么办呢?有总比没有要好吧。有了这个数,南北双方的人可以团结起来共同建设这个国家,一起往前走。如果没有这个数,难道我们所有的与会代表要在这个大厅里争论到老吗?

所以这在当时是一个不得已但又很理性的选择。隔了200多年,我们再去看3/5这个数,会发现它的另外一个功能:它像一根刺一样,扎在每个美国人的良心当中。你不是信奉上帝的国家吗?那上帝的子民都应该是平等的,怎么有一帮人只能按60%的人算呢?这跟你主张的自由、平等的基本原则不是相抵触的吗?

这根刺一旦扎在良心里,就会形成一种势能,让每个美国人都不得不正视这个伦理难题,从而要去解决它。它会随着历史进程的推演变得越来越膨胀,最后形成排山倒海的民意。

果然,过了半个多世纪,这个问题通过南北战争解决掉了,美国人终于可以在良心上松一口气了。

从这个例子就可以看出来,数据和伦理道德之间并不是一个非此即彼的两难选择。现实可能是丑恶的,它会反映到数据当中,但这并不是说数据本身有丑恶和高尚之分。

数据就是一个客观存在,它只是把原来那些被掩盖、被模糊的伦理难题翻到桌面上,成为一根所有人都看得见的眼中钉、肉中刺,它本身的存在就形成了解决这个伦理难题的前提。

就像我们中国古人讲修身养性,首先要制怒,就是不要让自己发火。做不到怎么办呢?每发一次火,你就在墙上画一道杠杠,过几个月你再来看,杠杠是不是越画越少了?这其实就是数字对我们的心理暗示。看到这些杠杠,我们就会懂得制怒,就会调整自己的情绪。你看,数字在伦理难题上,也能发挥如此大的作用。

这篇文章表面上说的是数据,实际上我想介绍的是一个结论—现代文明是建立在数据文明基础上的一种生活方式。

你可能会不同意,说数据文明多枯燥,多没灵性啊,用几个数字就能描绘出大千世界的千变万化吗?我们人类追求把握世界、理解世界,追求效率,我们可以用灵性、直觉、定性的方式直接把握它。

我们的老祖宗就是这么干的,我们讲究“太极生两仪,两仪生四相,四相生八卦”。虽然其中也有数,可这个数并不是数据文明那个数,是我们用审美的方式,直接用灵性把握这个世界的结论。而且这套结论永远颠扑不破,到哪朝哪代都不能说它是错的。

中华文明和数据文明之间,始终隔着一道观念的鸿沟。2012年中国有一则类似笑话的新闻,有一个发改委的专家说,中华民族的复兴指数已经达到了62.74%,好多人哄堂大笑。你看,数据文明和我们的中华文明面对同样一个数字,态度是不一样的。

如果是数据文明中的人,比如说美国人,他可能会跟这个专家争论,说这个模型有问题,这个算法有问题,这个参数有问题,这个数据的来源有问题。可是我们中国人,往往就是一通嘲笑了事,会说民族复兴怎么能用数据来表达呢?

数据文明的三大好处

数据文明纵有千般不好,今天也请容我为它讲出三点好处。

第一个好处,让人和人之间可以对话,而且可以得出阶段性的结论。比如说端午节,我们在微博上为甜粽子、咸粽子吵来吵去,这种事情,吵上千秋万代也不会有结论的。

如果站在数据文明里,那就清楚了。我们为什么吵?是在比较这两种粽子哪种更健康吗?那我们先确立一下标准,是不是摄入的卡路里越多就越不健康?那就测量出来,然后一较高下,结论就出来了。

第二个好处,数据文明可以让人和人,尤其是陌生人之间的远程、大规模协作变得可能。我此前多次讲过,陌生人之间的分工和协作是现代财富创生的根本基石。

西餐就容易通过数字标准化,然后形成跨空间的协作。比如麦当劳,一个城市有一个中心厨房,它生产一部分,然后通过数据来指导各家分店下一个阶段的生产,油温是多少度,一根薯条炸几分钟,用数据就可以控制它的口味。

要是换成中餐就完蛋了,因为它所有的烹饪系统就是一个黑箱,只有经验丰富的大师傅可以掌握,油温是多少度,火候是多大,酱油少许到底是多少,等等。它的一切都不数据化,导致一个大师傅的手艺和他做菜的口味没有办法横向协作。师父对徒弟也无法百分百传下去,横向之间的协作就更别想了。

第三个好处,数据是一种可以累进的文明。现代医学,也就是我们统称的西医,有一个好处,就是后人的成就一定是站在前人的基础上的,后人的发现一定是站在前人的阶梯之上的。西医一点点拓宽着人类对自己身体的认知边界,虽然艰难,但毕竟在推进。

为什么说数据文明奠定了现代化的基础?就是因为上面这三个特征。有了数据,人和人可以对话,人和人可以协作,知识和知识可以产生累进的作用。而现代化不就是这样爆发开的吗?

最后,让我们引用涂子沛先生的一句话:“大数据是土壤,开放的数据即为土地上的河流,河流流过之处,就会孕育起发达的数据文明。”