总的来说,归纳负责在经验材料中建立类型化的对象,识别因果关系。归纳强度的提升,让对象变得更加具体,关系变得更加明确。借助统计学这样的数学工具,人们得以处理无限大的对象——再大的总体,也可以通过有限的样本来间接地认识。特征成了变量,我们把这些“量”带入严谨的推理空间,演绎出了一系列可靠的相关关系,最终建立了我们需要的功能性联系。
那些放之四海而皆准的科学知识,本质上都是高强度的归纳加上高精度的演绎的产物。
这么看来,今天的知识似乎已经无限逼近它的最终目的了:确定过去和现在已知事实与将来的事实之间的关系,从而由当前状况产生唯一一种可能性。
这句话的重点在“无限逼近”。
你会发现,真正严肃的论文在报告其研究成果时都会说:准确率、成功率高达99.96%。这就是基于归纳的知识最尴尬的地方。
下图显示了美国1900—1960年人均吸烟量和肺癌死亡率的增长趋势。这60年间,美国烟草销量猛增,肺癌也从一种罕见疾病变成了男性最常患的癌症之一。大量证据指向吸烟会导致肺癌,但是,人们也总能找到理由来否认这些证据:“你看张学良老将军天天抽烟喝酒,照样活过百岁,怎么解释?”
这种孤例当然不需要讨论,但有些反驳是很有说服力的。比如,这60年里,人类的生存环境发生了剧烈的变化,汽车尾气的排放量持续增加,工业发展使得空气质量持续恶化,这些都有可能导致肺癌患病率增加,你凭什么认为是吸烟导致了肺癌?
Death rates source: US Mortality Data, 1960-2010, US Mortality Volumes, 1930-1959,National Center for Health Statistics, Centers for Disease Control and Prevention.
即便我们祭出随机抽样大法,捕捉到了抽烟频率和肺癌死亡率的相关性,“高明”的反对者依然可以说:可能是某种基因上的差异导致了某些人天生容易对吸烟上瘾,这些基因可能还会导致其他不健康的生活习惯;也许有些人患肺癌的概率天生就比普通人高,吸烟只是诱发了这种基因的表达而已,健康的人吸烟提神醒脑,有何不可?“高明”反对者中的一员,不是别人,正是统计学泰斗兼老烟民费希尔同志。
要知道,在当时的技术条件下,人们是无法证伪这件事的。事实上,21世纪初,人们真的发现了类似的基因,有些人真就对香烟更容易上瘾。
你会发现,有些反对意见看起来非常犀利、合理,甚至还有些像“先见之明”,且不论真正的因果关系为何,它们至少表明了,仅凭统计学上的结论,我们得到的“事实”是非常脆弱的。
这个案例中的压倒性证据出现在实验室里。20世纪50年代,医学期刊上已经出现了关于吸烟有害健康的实验证据,比如研究者在老鼠的身上涂抹烟焦油,结果倒霉的小老鼠患上了癌症,人们还在烟雾中发现此前已知的致癌物,虽然在逻辑上老鼠患癌不等于人患癌,致癌物能致癌可能是另一个统计学研究的结果,但这个时候再强词夺理就不合适了,实验证据结合之前的统计数据,已经形成了一个强有力的证据链。
这才有了下图的后半段信息,美国人均烟草消费量的峰值出现在1964年。当年美国卫生局长在一份报告中声明:“在男性中,吸烟与肺癌有因果关系。”随后烟草销量骤降,肺癌死亡率也随之下降。
Death rates source: US Mortality Data, 1960-2010, US Mortality Volumes, 1930-1959,National Center for Health Statistics, Centers for Disease Control and Prevention.
回看这100年的数据,你会发现人类完成了一次极其成功的公共卫生干预事件。如果你深入了解20世纪60年代之前的那段历史,就能体会到人类用统计来捕获因果时的无奈与尴尬。
这个案例引出一个思考:在我们对世界认知存在盲维且实证手段存在局限的前提下,那些统计意义上的可靠知识究竟有多可靠?
基因曾是我们的认知盲维,进行高精度的化学提纯也是科学革命之后才能做到的事,我们有幸跨过去了,如今我们的前沿科学面对的是一个乱丢骰子的上帝和理论上肯定存在却怎么也探测不到的“暗物质”[2]。
这个前提似乎是无法摆脱的——盲维总是存在,观测手段总是有局限,所以我们在很长的时间里都离不开统计意义上的可靠知识。意识到这一点,你就能理解皮尔逊那些看似离经叛道的观点了,对人类来说,概率似乎的确比因果更真实。我们漂浮在经验暗海之上,海里充满了各种混杂因子,暗中影响潮水的方向,这些知识似乎是我们能抓住的最粗壮的浮木。[3]
因果推断问题之所以把科学家搞得焦头烂额,是因为归纳和因果的问题是一个典型的哲学认识论问题。在穆勒、皮尔逊之前,哲学家休谟挖的那个坑,到今天都没有被填上。
休谟把人类的知识分成两种:一种是关于事实的知识,比如所有天鹅都是黑色的,来自我们的经验,相当于归纳的、综合的知识;另一种是与现实无关的、纯粹的理念性的知识,他称之为证明的知识,比如形式逻辑、数学推导,相当于前文所述演绎的、分析的知识,例如,根据所有天鹅都是黑色的推出澳大利亚的天鹅也是黑色的,如果前者为真,推出必然为真。
休谟的知识二分法,后来成了传说中的哲学神器之一——休谟之叉,这是一把插入知识深处,摧毁了知识根基的叉子:所有的演绎都必须基于归纳的知识展开,归纳又永远受限于人类有限的经验能力。穆勒、费希尔的工作不过是把这个叉子握得更紧一点而已,但间隙总是存在的。
如前所述,那些严肃的科学知识,有数学化的表达形式,有精确的预测能力,看起来和前面这些简单归纳出来的东西完全不是一路货色,但本质上,它们都是经验模型,同样是归纳。从原始的二分法到定量统计,技术上不断升级,但内核没有变过。
哲学家蒯因把严肃的物理学和神话相提并论:“物理对象的神话之所以在认识论上优于大多数其他的神话,原因在于:它作为把一个易处理的结构嵌入经验之流的手段,已证明是比其他神话更有效的。”[4]类似的话皮尔逊也说过:“力作为运动的因,与树神作为生长的因可以等同视之。”[5]
力、时间、参数、概率,是更容易被处理的结构,准确地说,是更容易被实验手段测定、被数理逻辑演绎的结构。通过这些“处理”,我们在混杂无序、相互勾连的经验场域中搭建出一个变量有限的空间,在其中学习前人总结出的变量间的功能性联系,以应对世界的不确定性。
事实证明,人类从这个空间里获得的指导,比从神话寓言、宗教训诫里获得的更有效,但你不要把科学当成新的神话和宗教,这是“原始人的归纳法”。
讲完归纳推理,大家会有一种错觉,好像把归纳和演绎的来龙去脉说清楚,就足够解释我们知识的构成和认知的规律了。但这是个错觉,我们至多能说:对归纳逻辑和演绎逻辑的规范化应用,让我们获得了结构清晰的知识。但人类的认知过程是非常复杂的,我能写下这些知识,你能理解这些知识的题中之义与话外之音,中间有一系列奇妙的事情发生。
在归纳和演绎之前,在结构化知识之下,还有一片未知地带,那里藏着人类思维之所以如此神奇的秘密。接下来,我们要追本溯源,进入认知语言学的世界,见识一下思维之火——类比。
需要指出的是,类比推理在传统逻辑学中是跑龙套的角色,经常沦为归纳推理下的一个子类,但在认知语言学中,它摇身一变,成了扛大旗的主角,有大量的认知语言学研究是围绕着类比展开的。该领域的公认经典著作是《我们赖以生存的隐喻》和认知科学家侯世达的大作《表象与本质:类比,思考之源和思维之火》,后者花了大量篇幅论证了一个观点:类比是人类认知的核心。
如果类比是思维之火,归纳最多算控制思维的火把,它是操控火的工具,为我们在杂乱无序的思维灌木丛中烧出一片片可供栖居的范畴。演绎思维则像是激光发射器,虽然难于操作,但精密可控,我们用它在那片范畴中雕琢出了精细的图案。
这个毫无节制的类比,意在揭示两件事:其一,在认知语言学中,类比和归纳、演绎属于不同层次,是火与火把、光与灯的关系;其二,类比非常重要,我们要往根上刨,下一章绝不可错过。
[1] 高尔顿发现身高高的人臂长相对也更长,但这两者明显没有直接的因果关系,因为它们共同受到遗传因子的影响,所以只能用相关性来描述。
[2] 暗物质不与电磁力产生作用,因此不吸收、反射或发出光线。人们目前只能透过重力产生的效应得知,而且已经发现宇宙中有大量暗物质存在。对暗物质和暗能量的研究是现代宇宙学和粒子物理的重要课题。
[3] 因果推断至今仍然是一个很热门的研究领域,学者提出了很多新的理论来克服统计研究方法带来的因果推断困难问题,如果你对这方面的前沿理论感兴趣,推荐阅读朱迪亚·珀尔和达纳·麦肯齐的著作《为什么:关于因果关系的新科学》。
[4] 威拉德·蒯因。从逻辑的观点看[M].江天骥,宋文淦,张家龙等译。上海:上海译文出版社,1987:42.
[5] 转引自朱迪亚·珀尔,达纳·麦肯齐。为什么:关于因果关系的新科学[M].北京:中信出版社,2019:46.