人类为万物定量的历史是从结绳记事开始的。我们创造数字、研究数学,是为了创造一种工具,用最精确的方式来描述万事万物之间的因果关系,这种工具就是我们所说的形式语言。千百年来,数学家们为此付出了卓绝的努力,谁承想,到了20世纪,人类所有关于定量的智慧集结起来,反倒直接消灭了因果关系,而消灭因果关系的罪魁祸首,就是统计学。今天的世界,是一个被统计学笼罩的世界。统计学的出现、发展和普及,让因果关系变成了一个多余的概念。
前面讲到,任何一个对象都有无数细节。在统计的世界里,需要认识的对象是一个总体,但我们无法直接研究总体,只能透过“样本”间接地认识它,样本的特征就是可供统计的变量,这些变量的值就是数据。当观察的样本足够多时,我们就能找出变量变化的一般规律,间接获得某个关于对象/总体的知识。这个知识,就是统计学中的“参数”。
譬如,你想知道吸烟和肺癌之间是否存在因果关系,你可以找到1 000个人(样本),记录他们的烟草消费量和肺癌患病率这两个变量的值,用一系列数学方法演绎得出最终的结论,这个结论并不是明确了它们的因果关系,而是计算出了烟草消费量与肺癌患病率的“相关性系数”。比如,系数为1表示完全正相关,每新增一个单位的烟草消费量,肺癌患病率就会有相应比例的增加;系数为-1则表示完全负相关,每新增一个单位的烟草消费量,肺癌患病率就会有相应比例的减少。
虽然真实世界中事物的相关关系不会如此线性,但我们在原则上总是能根据这个系数的大小来把握事物之间的复杂关联,准确地知晓它们在多大程度上相互影响着。
相关性是统计学先驱之一高尔顿在研究人体特征时发明的概念[1],在高尔顿的理论中,相关性还只是一个为因果关系辩护的证据。但在他的学生,另一位统计学先驱的卡尔·皮尔逊看来,相关性是凌驾于因果关系之上的,他认为“存在一个比因果关系更广泛的范畴,即相关性,而因果关系只是被囊括于其中的一个有限的范畴”。
因果关系被降格成了相关性中的一个特例。人们通常认为是相关性反映了因果关系,皮尔逊却反过来,说是因果关系反映了相关性,因果只是人类的观念,相关和概率才是自然的语言。
在数学工具发展的同时,人类的实证能力也在进步。后来,统计学领域的集大成者罗纳德·费希尔发明了一种叫“随机对照试验”的科学研究方法,堪称有史以来最强的实证研究方法。
数学家在逻辑上证明:随机取样的次数越多,样本趋势就越能代表总体的趋势,更重要的是,随机取样能最大程度地消除那些同时影响因果的混杂因子(天气、饮食、工作环境)对我们的影响。
回到那个跑步的例子,我们无法经由自己的个体经验来明确跑步是否真能让思维变得更敏锐,那么假如我们能在全世界范围内随机选取一万人,他们虽然可能有近似的生活环境和饮食作息,但样本选择的随机性大大稀释了它们对样本的影响。也许有相当一部分跑步者习惯保持健康饮食,也一定有不少人不介意吃垃圾食品。我们只需要关注,在如此大的样本量中,跑步习惯和某项智力测试成绩之间有没有共变关系就够了。
理论上,只要我们的资源无限多,我们就能得到一张表达人类所有可能的行为对应身心状态变化关系的表格。这就是统计学给出的关于“人类”这个总体的参数,即关于“人类”这个对象的全部知识。因此皮尔逊才说“描写两个事物之间关系的终极科学表述,总可被概括为一个列联表”。
今天,几乎所有科学都在用统计学的语言描述着自己的研究成果,人们也多多少少地接受了皮尔逊所倡导的世界观。从二元到多元,从直观到实证,从定性到定量,从因果推断到概率分配,是人们对归纳价值和局限性的认识逐步加深,应对手段逐渐升级的结果。