第十章 大数据,人工智能和大问题

第十章 大数据,人工智能和大问题

所有的一切都是预先确定了的,但许可总是被授予的。

——迈蒙尼德(1138—1204)

在最初开启这场因果关系的探索之旅时,我就一直在追踪反常事物的轨迹。借助贝叶斯网络,我们教会了机器在灰色地带进行思考,这是机器迈向强人工智能的重要一步。但就目前而言,我们仍然无法教会机器理解事情的前因后果。我们无法向电脑解释为什么转动气压计的刻度盘不会导致下雨。当一名行刑队的士兵改变想法,决定不开枪时,我们也无法教会机器理解这一情境并猜测接下来会发生什么。由于缺乏用设想替代现实,并将其与当前现实进行对比的能力,机器也就无法通过迷你图灵测试,不能回答使人类得以区别于动物产生智慧的那个最基本的问题——“为什么”。我认为这是一个反常现象,因为我没能预料到这一如此自然而直观的问题超出了当代最先进的推理系统的处理范畴。

直到后来我才意识到,受此种反常现象困扰的不只是人工智能领域。科学家本应是最关心“为什么”的人,但由于他们长期束缚于统计学的工作氛围,其提问“为什么”的正当权利被剥夺了。当然,无论如何,科学家还是会提出关于“为什么”的问题,但每当他们想用数学分析来解决这一问题时,他们就不得不将这一问题转化为一个关于关联的伪问题。

对这种反常现象的探索让我接触到了许多不同领域的研究者,比如哲学领域的克拉克·格莱莫尔和他的团队(包括理查德·谢因斯和彼得·斯伯茨)、计算机科学领域的约瑟夫·哈尔伯恩、流行病学领域的杰米·罗宾斯和桑德·格林兰、社会学领域的克里斯·文史普,以及统计学领域的唐纳德·鲁宾和菲利普·戴维,这些人都在思考同样的问题,也正是包括我在内的所有这些人共同点燃了一场因果革命的星火,使它以燎原之势从一个学科迅速蔓延到另一个学科,逐渐覆盖包括流行病学、心理学、遗传学、生态学、地质学、气候科学等在内的多个专业领域。自此,每一年,我都能看到有越来越多的科学家开始愿意谈论和书写因果关系,他们不再带着抱歉或畏惧的神色,而是怀着自信和果断。一个新的范式正在逐步发展成形,根据这个范式,你可以在假设的基础上提出你自己的主张,只要你的假设足够简明易懂,大家就可以判断出你的主张的可信度,以及面对反驳的脆弱度。因果革命也许没有带来能直接改变我们生活的特定工具,但它在整个科学界引起的态度转变,必然有利于科学的蓬勃发展。

我经常将这种态度转变看作“人工智能送给人类的第二份礼物”,这也是我们在本书中的主要关注点。现在,故事已经走向了尾声,是时候回过头看看我们花了很长时间才得到的来自人工智能的第一份礼物。然后问问我们自己:我们真的离计算机或机器人能够理解因果对话的时代越来越近了吗?我们真的能制造出像三岁孩童那样富有想象力的人工智能吗?在最后一章,我将分享我个人的一些想法,我不会给出一个明确的结论,而是更希望留给大家思考的空间。

因果模型与“大数据”

近年来,在整个科学、商业、政治乃至体育领域,我们所掌握的原始数据量正以惊人的速度持续增长。这种变化对于我们这些习惯于使用互联网和社交媒体的人来说也许体现得最为明显。据报道,2014年(也是我查看大数据的最后一年),脸书存储了约20亿活跃用户的300PB(千兆字节)的数据,也就是每个用户150MB(兆字节)的数据。人们玩的游戏、喜欢购买的产品、脸书中所有朋友的名字,当然还有他们分享的猫咪视频——所有这些数据都存在于壮阔的二进制海洋中。

对普通大众来说不那么明显但同样重要的一个新事实是庞大的科学数据库的兴起。例如,“千人基因组计划”就为其所谓的“最大的关于人类变异和基因型数据的公共目录”收集了200TB(兆兆字节)的信息。美国国家航空航天局(NASA)的米库尔斯基太空望远镜档案馆则收集了来自多次外层空间探索的2.5PB(千兆字节)的数据。而大数据影响的范围远不止前沿高端科学,它几乎入侵了所有的科学领域。30多年前,海洋生物学家为了对其最为钟爱的某个物种进行总体普查可能需要花费数月的时间走访世界各地。而现在,他们可以在互联网上即刻获得数以百万计的关于鱼、卵、胃容物或任何他们想获得的事物的数据。这名海洋生物学家还可以据此讲述一个完整的故事,其研究也不再局限于费时费力的总体普查。

而与我们关系最为密切的问题是——接下来会发生什么?如何从所有这些数字、比特和像素中提取意义?数据体量越来越庞大,但我们问的问题始终很简单:是否存在一种会导致肺癌的基因?什么样的恒星系可能存在像地球一样的行星?是什么因素导致了我们喜爱的某种鱼类的数量减少,而对此我们能做些什么?

某些领域存在着一种对数据的近乎宗教性的信仰。这些领域的研究者坚信,只要我们在数据挖掘方面拥有足够多的智慧和技巧,我们就可以通过数据本身找到这些问题的答案。然而,本书的读者已经明白,这种信仰是盲目的,很可能受到了对数据分析的大规模宣传炒作的误导。我刚刚问的问题都是因果问题,而因果问题从来不能单靠数据来回答。它们要求我们建构关于数据生成过程的模型,或者至少要建构关于该过程的某些方面的模型。当你看到一篇论文或一项研究是以模型盲的方式分析数据的时候,你就能确定其研究结果最多不过是对数据的总结或转换,而不可能包含对数据的合理解释。

当然,这并不是说数据挖掘没有用。对于探索我们感兴趣的关联模式,并据此提出更精确的解释性问题,数据挖掘很可能是关键的第一步。我们现在不再需要问“是否存在一种会导致肺癌的基因”这个问题,而是可以筛查与肺癌高度相关的基因组(如第九章提到的“大先生”基因),然后针对存在相关性的某些基因问:“这个基因会导致肺癌吗?(以及它们是以怎样的方式导致肺癌的?)”如果没有数据挖掘,我们就不可能提出有关“大先生”基因的问题。然而,要想更进一步,我们就需要建立一个因果模型,用以说明我们所认为的某个基因其可能影响的变量有哪些,可能存在的混杂因子是什么,以及其他的因果路径可能带来的种种后果。解释数据就意味着做出一种假设,这种假设建基于事物在现实世界中的运作方式。

大数据在因果推断问题中的另一个作用体现在因果推断引擎的最后阶段,我们在前言中描述过这一阶段(步骤8),它让我们得以借助被估量推导出估计值。当变量较多时,统计估计这一步的难度不可小觑,只有借助大数据和现代机器学习技术,我们才有可能真正应对维度灾难。同样,大数据和因果推断在个性化医疗这一新兴领域也发挥了至关重要的作用。在该领域,我们需要根据一组个体过去的行为做出推断,且这组个体需要与我们所关注的个体在尽可能多的特征上相似。因果推断能让我们屏蔽不相关的特征,也能让我们从不同的研究中把这些在关键方面相似的个体聚集起来,而大数据则能让我们收集到关于这些人的充分的信息。

有些人将数据挖掘看作研究的终结而不是第一步,原因很容易理解。它允许我们使用现成的技术得出一个解决方案,让我们以及未来的机器不必费力去考虑和阐明关于现实世界运作方式的实质性假设。但在某些领域,我们的知识还处在初步积累的阶段,因此我们不知如何下手去建构一个关于该领域的模型。而大数据无法帮助我们解决这一领域的问题,因为此类问题的答案的主体部分必然来自模型,无论这个模型是由我们自己构建出来的,还是由机器假设并微调出来的。

为避免显得我对大数据事业过分挑剔,我想为大数据和因果推断的合作提供一个新机会,我将这一新机会称为“可迁移性”(transportability)。

得益于大数据,我们不仅可以在任何特定的研究中获得大量个体的数据,还可以接触到大量在不同地点和不同条件下进行的研究。我们常常希望将这些研究结果结合起来,然后将其迁移至一个新的总体,这一新的总体可能在各种我们意想不到的方面与原始研究中的总体有所不同。

将研究结果从一个环境迁移到另一个环境的过程正是科学的基础。事实上,如果不能将实验室结果推广到现实世界,例如将人工胚胎技术从试管环境迁移至动物再迁移至人类,那么科学进步就将停滞不前。然而直到最近,各个学科仍在试图制定自己的标准,以便从无效的泛化中找出有效泛化的方法。就总体而言,我们目前尚未掌握任何系统性的办法来解决这一“可迁移性”问题。

在过去的5年里,我和我以前的学生(现在的同事)伊莱亚斯·巴伦拜姆成功地提出了一个完整的标准用以判断研究结果何时是可迁移的,何时是不可迁移的。与以往一样,使用此标准的前提条件是,你已经使用因果图表示出了数据生成过程的显著特征,并且标记出了潜在的差异点。“迁移”一个结果并不一定意味着取其表面意义,将之直接应用到新的环境中。考虑到新旧环境之间的差异,研究者可能不得不需要重新校准旧的研究结果。

假设我们想了解一个在线广告(X)对消费者购买产品(Y,比如冲浪板)的可能性的影响。我们有来自5个不同区域的研究数据:洛杉矶、波士顿、旧金山、多伦多和檀香山。现在,我们想估计一下该广告在阿肯色州的有效性。遗憾的是,以往研究的每个总体和研究范示都各有其特性。例如,洛杉矶研究的总体的平均年龄比我们的目标总体的年龄要小,旧金山研究的总体在点击率上的表现与其他地区有所不同。图10.1显示了每个总体和每项研究的独特性。那么,我们能否将这些关系不密切甚至不相干的研究数据结合起来,估计出阿肯色州的广告效果呢?我们可以在不考虑阿肯色州的任何数据的情况下估计出其广告效果吗?或者,我们是否可以仅仅通过测量一小组变量或进行一项初步的观察性研究来估计出阿肯色州的广告效果呢?

图10.1 可迁移性问题

图10.2将这些已有研究涉及的总体和目标总体之间的差异转换为图示形式。变量Z代表年龄,是混杂因子,因为年轻人可能更容易看到广告,即使没看到广告,他们也更有可能购买产品。变量W表示点击率,这是一个中介物,是将“看到广告”转化为“购买产品”的必经之路。指标S在所有情况中都代表“差异生成”变量,它是一个假设变量,表示的是决定了两个群体间的差异的特征。例如,在洛杉矶的因果图[见图10.2(b)]中,指标S指向Z,年龄,这与图10.1(b)中的信息是相符的。在其他城市的因果图中,该指标指向的变量均为图10.1所描述的各个总体的显著特征。

图10.2 已有研究中的总体和目标总体之间的差异,以图示形式表示

对于广告公司来说,好消息是目前计算机已具备处理这一复杂的“数据融合”问题的能力。在do演算的指导下,计算机能告诉我们可以使用哪些已有的研究、借助哪些手段来回答问题,以及在阿肯色州收集哪些变量的数据可以用来支持我们的结论。在某些情况下,效应可以直接迁移,我们不需要再做额外的工作,甚至无须踏入阿肯色州就可以得到结论。例如,阿肯色州的广告效应应该和波士顿的一样,因为根据图示,波士顿[见图10.2(c)]仅在变量V方面不同于阿肯色州,而该变量不影响处理X或结果Y。

而对于其他研究所得出的效应,我们就需要重新对数据赋权。例如,对于洛杉矶的研究[见图10.2(b)],我们需要考虑其与目标总体的不同年龄结构。有趣的是,尽管W不一致,但只要我们能测量阿肯色州的变量X、W、Y的数据,则我们就可以根据多伦多[见图10.2(e)]的试验性研究估计出阿肯色州的广告效果。

值得注意的是,我们也会发现在一些案例中,我们无法将任何一项以往的相关研究所得出的效应迁移过去,但我们可以从这些效应的某种形式的组合中估计出目标总体的效应。而且,结论不能迁移的研究也不是完全无用的。例如,由于存在路径S→Y,檀香山的研究[见图10.2(f)]得出的效应就是不可迁移的。但是,由于路径X→W不受S的影响,因此檀香山研究中的数据可以用来估计P(W|X)。将这个估计与从其他研究中得出的P(W|X)相结合,我们就能提升该子表达式的精确度。而通过将此类子表达式精心结合起来,我们或许就可以得到目标效应总量的精确估计。

在简单的情况中,我们用直觉就可以判断出这些结果是合理的,但当图表变得更加复杂时,我们就需要一种形式化的方法来辅助我们做出判断。对此,do演算提供了一种确定可迁移性的一般标准。该规则非常简单:如果你可以执行一系列有效的do演算(运用第七章中的规则),将目标效应的表达式转换为一个新的表达式,其中任何涉及S的因子都不包含do算子,则这一估计值就是可迁移的。其遵循的逻辑很简单:任何此类因子都可以从现有数据中估计出来,且不受差异因子S的影响。

针对可迁移性问题,伊莱亚斯·巴伦拜姆的尝试与伊利亚·斯皮塞解决干预问题的做法很类似。他开发了一种算法,可仅凭借图解标准自动确定你所寻求的效应是否可迁移。换句话说,它可以告诉你能否实现将do算子从S中剥离出去的操作。

在很多研究中,受试者的行为都是无法被强制的,因而我们很难保证已有研究的总体与我们的目标总体相同。而巴伦拜姆的研究结果之所以振奋人心,是因为它将这种在以往被视为威胁可迁移性的因素转化为对于这些研究的一个绝佳的利用机会。我们不再将总体之间的差异视为对研究的“外部有效性”的威胁,而是掌握了一种有效的方法,得以在之前看似无望的情况下确立有效性。正是因为生活在大数据时代,我们才有机会接触到关于诸多研究和辅助变量(如Z和W)的信息,从而能够将已有的研究结果从一个总体迁移至另一个总体。

顺便一提,针对另一个长期困扰统计学家的问题——选择偏倚,巴伦拜姆也得出了类似的结论。当研究的样本与目标总体在某些相关方式上不一致时,这种偏倚就会出现。这听起来很像一个可迁移性问题——的确如此,只不过我们需要先做一个非常重要的修正:我们要绘制一个指向S的箭头,而不是绘制一个从指示变量S指向受影响变量的箭头。在此例中,我们认为S代表的是“研究选择”。例如,在伯克森偏倚的例子中,如果我们的研究只以住院患者为观察对象,那么我们就相当于画了一个从住院治疗指向S的箭头,其表明住院是我们的研究选择的一个因。在第六章,我们曾将这种情况仅仅视为对研究有效性的威胁。但现在,我们可以再次把它看成一个机会。如果我们掌握了选择的机制,我们就可以为我们的研究补充受试者,或者收集正确的去混因子数据集,并通过适当的重新加权或公式调整来克服偏倚。巴伦拜姆的工作让我们可以利用因果逻辑和大数据创造出以前无法想象的奇迹。

通常,像“奇迹”和“无法想象”这样的词在科学论述中是非常罕见的,读者可能会怀疑我是不是有点儿过于激动了,但我自认为我使用这些词的理由是充分的。自从唐纳德·坎贝尔和朱利安·斯坦利于1963年确认并定义了“外部有效性”这一术语以来,它作为对实验科学的威胁已经存在了至少半个世纪。我与许多讨论过这个题目的专家和知名作家交流过。令我吃惊的是,他们中没有一个能够解决图10.2所展示的迁移问题中的任何一个小问题。我称它们为“小问题”,是因为它们易于描述,易于解决,且易于证明给定的解决方案是否正确。

目前,对“外部有效性”的研究完全专注于对效度威胁的罗列和分类,而不是与之做斗争。事实上,这一长久存在的威胁已经令人丧失了与之斗争的勇气,以致人们不再相信这种威胁是可以解除的。那些不习惯使用图示模型的专家发现,设置额外的威胁比尝试解决某个威胁看起来更容易。因此我希望用像“奇迹”这样的语言来唤醒我的同事,让他们将此类问题看作一种智力挑战,而非绝望的理由。

我当然希望我能为读者展示一个成功的个案研究,该研究包含复杂的可迁移性问题,同时还存在一个需要克服的选择偏倚。但我所提到的这些技术目前还很新,尚未得到普及。不过我相信,过不了多久,研究者们就会发现巴伦拜姆算法的力量,而随后,外部有效性那神秘而恐怖的形象就会像此前的混杂问题一样烟消云散。

强人工智能和自由意志

在阿兰·图灵那篇著名的论文《计算机器与智能》墨迹未干之际,科幻小说家和未来学家对于未来智能机器的假想就开始不断涌现。有时,他们赋予这些智能机器一个和蔼可亲甚至品德高尚的形象,就像《星球大战》中活泼又有点儿冒失的机器人R2D2,或者那个搞怪的英国人形机器人C3PO。但更多的时候,他们倾向于把智能机器想象的十分邪恶,忙于像电影《终结者》中的反派那样密谋毁灭人类,或者致力于像《黑客帝国》中的“母体”一样在虚拟现实中奴役人类。

在所有这些情境中,这些假想中的人工智都更多地反映了作家本人的焦虑或影片特效部的高超本领,而非专业研究者所进行的实际的人工智能研究。毫无疑问,计算机在纯粹的计算能力这方面已远远超出了图灵的期望,而强人工智能却变成了一个比他想象的更难以实现的目标。在第三章,我谈到了人工智能进展缓慢的原因。20世纪70年代和80年代初,人工智能的研究因过于强调基于规则的系统而受到了制约。但事实证明,基于规则的系统是错误的,它们十分脆弱,对其运行假设的任何细微改变都会导致我们必须重写整个系统。这些系统不能很好地应对不确定性或矛盾的数据。此外,这些系统缺乏科学意义上的透明性:你无法在数学上证明它们会按照某种方式运行,而如果运行不当,你也无法精准地指出什么地方需要修改。并非所有人工智能领域的研究者都反对这一认为系统“缺乏透明性”的观点。当时,该领域的研究者分成了两派——“讲究派”(这些人寻求的是建立有运行保障的、足够透明的系统)和“将就派”(这些人对系统的要求是只要可运行,满足工作目的即可)两类,而我一直属于“讲究派”。

我很幸运能在这一领域准备好接受新方法的时候参与进来。贝叶斯网络是概率的,它可以应对充满矛盾和不确定数据的世界。而基于规则的系统则不同,它们是模块化的,易于在分布式计算平台上编码,这让它们运行得很快。最后,对我(以及其他“讲究派”的学者)来说,重要的是,贝叶斯网络以数学的方式可靠地处理概率,这就保证了即便出了什么差错,该差错也只会出现在程序中,而不会出现在我们的思想里。

即使具备了所有这些优势,贝叶斯网络仍然无法理解因果。在贝叶斯网络中,信息被有意地设计为在因果和诊断两个方向中来回流动:烟雾增加了火灾的可能性,火灾增加了烟雾的可能性。事实上,贝叶斯网络甚至无法解释“因果方向”是什么。结果,再一次,对这一奇妙的反常现象的研究,让我从机器学习的领域中脱离出来,走向因果关系的研究领域。我不赞同“未来机器人无法用我们的因果语言与我们沟通”这种观点。一旦踏入因果关系的领地,我自然而然地就被吸引到了其他学科的广阔领域,在那些领域,因果不对称至关重要。

所以,在过去的25年里,从某种程度上说,我是一个自动推理和机器学习领域的“自我流放者”。好在,站在一个更远、更高的位置上,我依然可以知晓人工智能领域当前的变化趋势和最新的发展。

近年来,人工智能最显著的进步发生在一个被称为“深度学习”的领域,它采用的基本方法类似于卷积神经网络。这些网络不遵循概率规则,它们不以严谨或清晰的方式处理不确定性,也没有对其运行环境的明确表征。相反,这些网络的体系结构可以自行发展。在完成了一个对于新的网络的训练后,程序员就不再管它,也无从知晓它正在执行什么计算,或者它们为何有效。如果网络失灵,程序员也不知道应该如何修复它。

一个典型的例子或许是AlphaGo(阿尔法狗),它由谷歌的子公司DeepMind开发,是一个基于卷积神经网络的程序[1],擅长围棋游戏。在人类的完全信息游戏中,围棋一直被认为是人工智能最难啃的一块骨头。虽然计算机程序早在1997年的人机国际象棋大战中就战胜了人类,但直到2015年,即使是面对最低段位的职业围棋选手,人工智能也无法与之匹敌。围棋界人士认为,计算机要实现与职业棋手一较高下,仍需10年甚至更长的时间。

随着AlphaGo的问世,这一局面几乎在一夜之间就被颠覆了。大部分围棋选手是在2015年下半年第一次听说这个程序的,当时它以5∶0的比分击败了一名人类职业棋手。2016年3月,AlphaGo以4∶1的比分击败了近几年来被认为是最顶尖的人类棋手李世石。几个月后,它又同顶尖人类棋手在线对战了60局,而没有输掉一局比赛。2017年,AlphaGo在战胜当时的围棋世界冠军柯洁之后正式“退役”。输给李世石的那一局,是它输给人类的唯一一局比赛。

这些计算机程序所取得的成绩是如此令人激动,其导向的结论似乎也毋庸置疑:对某些任务来说,深度学习具有独特的优势。但这类程序或算法与我们对透明性的追求背道而驰。即使是AlphaGo的程序编写者也不能告诉我们为什么这个程序能把下围棋这个任务执行得这么好。我们只能从经验中了解到,深度网络在计算机视觉和语音识别任务中取得了更多的成功。可以说,我们对深度学习的理解完全是经验主义的,没有任何保证。AlphaGo团队并没有在一开始就预测到,这个程序会在5年的时间内击败人类最好的围棋棋手。他们只是想试验一下,而AlphaGo出人意料地成功了。

有些人可能会说,我们并不真正需要透明。毕竟我们也不太明白人脑是如何工作的,但它的确运行良好,而我们也原谅了自己对于大脑运行机制的肤浅理解。因此,他们指出,为什么不可以在不了解工作原理的情况下将深度学习系统解放出来,创造一种新的智能?我不能说他们错了。此时此刻,“将就派”的确抢占了先机。但我至少可以说,我个人不喜欢模糊的系统,这就是我不研究此类系统的原因。

暂且不谈我的个人品位,先讨论一下另一个关于人类大脑的类比。我们可以原谅自身对大脑工作机制的肤浅理解,但我们仍然可以与其他人交流,向其他人学习或指导其他人,以及以我们自己的因果语言来激励其他人。之所以我们可以这样做,是因为人类的大脑是以一种相同的方式工作的。而如果机器人都像AlphaGo一样不透明,我们就无法与它们进行有意义的对话,这就太遗憾了。

如果在我睡觉的时候,我的家庭机器人打开了吸尘器(见图10.3),我会告诉它:“你不该吵醒我。”我想让它明白,在此时打开吸尘器是错的,但我又不希望它将我的抱怨理解为永远不要在楼上使用吸尘器。我们对真正的智能机器人的期望是,它们应该明白你我都能完全理解的事:吸尘器会制造噪音,噪音会吵醒睡觉的人,而这会让被吵醒的人不高兴。换句话说,我认为智能机器人必须理解这种因果关系——事实上是反事实关系,例如那些被编码为“你不该……”的短语。

图10.3 一个聪明的机器人会考虑它的行为的因果影响(资料来源:马雅·哈雷尔绘图)

是的,这句简短的指令具有非常丰富的内涵。这个指令同样适用于它在楼下或家里其他地方吸尘的情况,但对于我醒着或不在家,或吸尘器装有消音装置等情况,该指令就不适用。我认为我们没必要告诉机器人所有这些内容,它应该能够自行理解这些。而一个深度学习程序真的能理解这一指令的丰富内涵吗?我对此表示怀疑。这就是我对给出了出色表现的模糊系统感到不满意的原因——透明性才能确保有效的沟通。

不过,我确实对深度学习的一个方面感兴趣,即其系统的理论局限性,其中最主要的局限体现在其无法超越因果关系之梯的第一层级。这一局限并不妨碍AlphaGo在狭隘的围棋世界中给出出色的表现,因为棋盘形式与游戏规则已经构成了关于围棋世界的一个充分的因果模型。然而,这一局限性阻碍了学习系统在由诸多因果力控制的环境中给出一个出色的表现,使其只能接触到这些力量的浅表影响。此类环境的典型实例有很多,包括医学、经济、教育、气候学和社会事务等。如同柏拉图那个关于洞穴中的囚徒的著名隐喻,深度学习系统探索的是洞穴壁上的那些阴影,学习的是准确预测阴影的活动。深度学习系统不能理解它观察到的阴影仅仅是三维物体的空间运动在二维平面上的投影,而强人工智能必须具备这种理解力。

深度学习的研究者和使用者并非没有意识到这些基本的理论局限。例如,使用机器学习的经济学家注意到,这一方法不能帮助他们回答他们真正感兴趣的关键问题,例如估计尚未实施的策略和行动的影响。典型的例子包括预测推行新的价格结构、补贴政策或调整最低工资的影响。从技术的角度看,今天的机器学习的确是一种有效方法,它让我们得以通过有限的样本估计总体的概率分布,但我们仍然需要在此基础上根据分布推测因果关系。

当我们开始谈论强人工智能时,因果模型就从奢侈品变成了必需品。对我来说,强人工智能应该是能反思其行为,并能从过去的错误中吸取教训的机器。它应该能够理解“我本应该采取不同的行为”这句话,无论这句话是由人类告诉它的还是由它自己分析得出的。这个说法的反事实解释是:“我做了X=x,得到的结果是Y=y。然而,假如我之前采取了不同的行动,比如说X=x',那么结果本应该会更好,也许是Y=y'。”正如我们看到的那样,当我们有足够的数据和一个充分且具体的因果模型时,对这些概率的估计就实现了完全的自动化。

事实上,我认为机器学习的一个非常重要的目标就是得到更简单的概率P(YX=x')=y'|X=x),其中机器观察到事件X=x,而结果是Y,在此前提下,机器需要学会求解在另一个事件X=x'发生的情况下的结果。如果机器能计算出这个概率的数值,它就可以将它自己的某个计划执行(但还未执行)的行动视为一个观察到的事件(X=x),同时提出问题:“如果我改变主意,取而代之做出X=x'的行动会怎样?”这个表达式在数学上等同于被处理对象的处理效应(在第八章提到过),我们能找到很多的例子来表明应该如何估计它。

意图是个人决策的重要组成部分。倘若一个已经戒烟的人突然想点上一支烟,他应该非常认真地考虑这一意图背后的原因,并自问相反的行动是否会产生更好的结果。理解自己的意图,并用它作为因果推理的证据,具备这一能力就说明行为主体的智能已经达到了自我觉察的水平(但尚未达到自我意识的水平,如果这种分级是正确的话)。据我所知,目前还没有任何一个智能机器能达到这个水平。我希望有一天我能带领智能机器进入这个迷人的领域,让它自己说“不”。

任何关于意图的讨论都将涉及强人工智能的另一个重要问题:自由意志。如果我们要求机器首先产生做X=x的意图,然后在觉察到自己的这个意图之后,反而选择去做X=x',我们就相当于是在要求机器拥有自由意志。但是,如果机器人只会遵循存储在程序中的指令,那么它如何才能有自由意志呢?

伯克利大学的哲学家约翰·塞尔将自由意志问题称为“哲学上的丑闻”,一是因为自古以来对这个问题的论述毫无进展,二是因为即便如此我们仍然不能把它当作一种视觉幻象避而不谈。我们关于“自我”的整个概念都是以我们有选择为前提的。例如,我有一个选择(比如,是否触摸我的鼻子),我做出这个选择之后所体验到的生动清晰的感觉与我们建立在因果决定论之上的现实理解似乎存在无法调和的矛盾,其中后者具体指的是:我的所有行动都是由大脑释放的神经信号引发的。

随着科学的进步,许多哲学问题已经消失了,而自由意志仍然保持着当初的神秘,与其在亚里士多德和迈蒙尼德时代的形象没什么两样。此外,虽然在精神或神学的某些层面,人的自由意志的合理性曾得到过证明,但这些解释并不适用于一台由程序控制的机器。所以,任何宣称其所研发出的机器人拥有自由意志的做法都一定是在制造噱头——至少传统观点是这么认为的。

并非所有的哲学家都相信自由意志和决定论之间存在冲突。还有一派被称作“兼容并包者”(我自己就是其中一员),他们认为二者只是在描述的两个不同的层面时存在明显的冲突:一是神经层面,在这一层面,过程看起来是决定性的(暂且不考虑量子不确定性的问题);二是认知层面,在这一层面,我们能体验到生动的自主选择的感觉。这种明显的冲突在科学中并不少见。例如,物理方程在微观层面上具有时间可逆性,但在描述的宏观层面上则显得不可逆转,比如烟雾永远不会回流到烟囱里。但这又引发了新的问题:假设自由意志是(或者可能是)一种幻觉,那么为什么对我们人类来说,拥有这种幻觉如此重要?为什么进化过程不辞辛劳地赋予我们这个概念?不管是不是在制造噱头,我们是否都应该尝试着给下一代计算机编写程序,让它们拥有这种幻觉?这样做的目的何在?它带来了哪些计算优势?

我认为,理解自由意志幻觉的功能是解开它如何才能与决定论相调和这一深奥谜题的关键。而一旦我们赋予一台确定性机器同样的功能,问题就会迎刃而解。

除了功能问题,我们还必须处理模拟问题。如果是大脑中的神经信号引发了我们所有的行动,那么我们的大脑就一定会忙于用“意志”或“有意”来美化某类行动,而用“无意”来美化另一类行动。那么,这个贴标签的过程到底是什么?什么样的神经路径会得到带有“意志”标签的特定信号?

在许多情况下,人的自发行为都被认为会在短期记忆中留下痕迹,这个痕迹就反映了背后的目的或动机。例如,“你为什么这么做?”“因为我想打动你。”或者,就像夏娃在伊甸园给出的回答:“蛇欺骗了我,我就吃了。”但在许多其他的情况下,我们采取了有意的行动,却没有什么理由或动机。对行动的合理化可能是一个事后重建的过程。例如,一个足球运动员也许能够解释为什么他决定把球传给乔而不是查理,但这些原因几乎不可能有意识地触发了他的这一行动。在球赛最激烈的时候,数以千计的输入信号都在抢占运动员的注意力。我们要做出的关键的决定是哪些信号需要优先处理,而决定背后的原因往往很难回忆和阐明。

目前,人工智能领域的研究者正试图回答这两个问题,即功能问题和模拟问题,其中前者驱动了后者。一旦认识到自由意志在我们的生活中发挥了怎样的计算功能,我们就可以给机器配备这样的功能。如此,这两个问题就被转化为一个工程问题,虽然解决这一工程问题仍然非常困难。

对我来说,功能问题的某些方面尤其值得展开讨论。自由意志的幻觉使我们有能力谈论我们的意图,同时也允许我们使用反事实逻辑,让我们的意图服从于理性思考。当教练把我们从足球比赛中拉出来,对我们说“你本应该把球传给查理”的时候,不妨想想这几个字所内含的复杂含义。

首先,这种“本应该”指令的发出其目的是迅速将这一有价值的信息从教练传递给球员:将来面临类似的情况时,你要选择行动B而不是行动A。但“类似的情况”太多了,甚至连教练自己也不清楚都有哪些。教练并没有列出这些“类似的情况”的特点,而是针对球员的行动发出指令,因为行动表明了球员在做决定时的意图。教练通过指出行动的不恰当,要求球员识别导致他做出此决定的“软件程序包”,然后重置这些程序包中的优先级,以便让“传球给查理”成为首选行动。这项指令包含着深刻的智慧,因为除了球员自己,还有谁能知道这些程序包的具体特性?它们是不可名状的神经路径,教练或任何外部观察者都无法一窥究竟。要求球员采取与之前其所采取的做法不同的做法,就相当于提倡对特定意图进行具体分析,就像我们上面提到的那样。因此,根据意图进行思考给我们提供了一种简化方法,使我们能将复杂的因果指令转换为简单的指令。

如果能够设计出就像拥有自由意志一样可以相互沟通的机器人,让它们组成一支球队,我想它们一定会踢得更好。无论单个机器人的足球技术有多高超,只要它们能够互相交谈,仿佛自己并不是被安装了预置程序的机器人,而是相信自己有选择权的自主智能体,那么它们的团队表现一定会有所提高。

自由意志的幻觉是否能增强机器人之间的交流,这个问题尚待考察。但无论如何,机器人与人类之间的交流的不确定性都要小得多。为了实现与人类的自然沟通,强人工智能必须了解关于选择和意图的词汇,而这就需要它们模拟自由意志的幻觉。正如我上文所解释的,机器人也可能发现“相信”自己的自由意志更有利,也即达到能够觉察到自己的意图继而“选择”采取另一种行动的智能水平。

一方面,对某人的观点、意图和欲望进行推理的能力一直是人工智能领域的研究者面临的一项重大挑战,这一能力也界定了“智能体”这个概念。另一方面,哲学家将对这类能力的研究作为经典的意识问题的一部分。已经有几代科学精英讨论过“机器可以有意识吗”或“是什么使软件智能体区别于普通的程序”这类问题,在此我也不会假装自己能够给出这类问题的完整答案。但我相信,反事实的算法化是理解这些问题,将意识和智能体转化为计算现实的重要一步。给机器配备对其环境进行符号表示的描述方法,以及赋予它想象该环境发生某种假想的小变化的能力,可以扩展到将机器本身作为环境的一部分。没有哪个机器能处理其自身软件的完整拷贝,但它可以掌握其主要软件组件的设计图摘要。这样,它的其他组件就可以对该设计图进行推理,从而模拟出一种具有自我意识的状态。

为了创造智能体的知觉,我们还必须给这个软件包配备内存,以记录其历史活跃数据,确保其在被问及“你为什么这样做”时有所参考。经过某些具有特定激活模式的路径的行为可以得到一个合理的解释,例如“因为已证明另一种选择没有吸引力”;而另一些不经过特定路径的行为则只能得到推脱和无效答案的搪塞,诸如“我也希望我知道为什么”或“因为你就是这样给我编程的”。

总之,我认为,能够给思维机器带来智能体效益的软件包至少包括3个组成部分:关于世界的因果模型;关于自身软件的因果模型,无论这个模型有多浅显;以及一个内存,用于记录其心理意图对外部事件的反应方式。

这甚至可能正是我们从婴儿期就开始接受的因果教育的模式。我们的头脑中可能存在一个类似于“意图生成器”的东西,它告诉我们,我们应该采取行动X=x。但是孩子们喜欢试验,喜欢违抗父母、老师,甚至他们自己的意图,他们喜欢与众不同的东西,而这一切只是为了好玩。在十分清楚我们应该做X=x的前提下,我们却为了好玩而选择做X=x'。我们会观察接下来发生了什么,然后重复这个过程,并记录我们的意图生成器有多好用。最后,当我们开始调整自己的软件包时,那就是我们开始对自己的行为承担道德责任的时候了。这种责任在神经激活层面可能同样是一种幻觉,但在自我意识软件的层面则切实存在。

受到这些可能性的鼓舞,我相信具备因果思维和智能体能力的强人工智能是可以实现的,而这又引发了科幻小说作家从20世纪50年代以来一直在问的问题:我们应该对此感到担忧吗?强人工智能是一个我们不该打开的潘多拉之盒吗?

最近,像埃隆·马斯克和史蒂芬·霍金这样的公众人物已公开表示我们应该对此感到担忧。马斯克在推特上说,人工智能“可能比核武器更危险”。2015年,约翰·布罗克曼的网站Edge.org推出了其年度问题:“你对会思考的机器有什么看法?”该问题收到了186个回答,既有经过了深思熟虑的,也有颇具挑衅性的[之后这些答案被汇编为一本书——《如何看待会思考的机器?》(What to Think About Machines That Think)]。

布罗克曼提出的这个刻意含糊表述的问题可以拆分为至少5个相关的问题:

(1)我们是否已经制造出了会思考的机器?

(2)我们能制造出会思考的机器吗?

(3)我们准备制造会思考的机器吗?

(4)我们应该制造会思考的机器吗?

最后,引发大众焦虑的那个未被阐明的核心问题是:

(5)我们能制造出有能力区分善恶的机器吗?

除第一个问题的答案是否定的之外,我相信所有其他问题的答案都是肯定的。我们当然还没有制造出能像人一样思考的机器。到目前为止,我们只能在狭义的领域模拟人类思维,这些领域只涉及最原始的因果结构。在这些狭义的领域中,我们可以制造出比人类更出色的机器,这并不奇怪,因为这些领域关注的是计算机更擅长的事:计算。

如果我们将会思考定义为能够通过图灵测试,那么对第二个问题的回答就几乎百分之百是肯定的。我有这样的把握是建立在我们从迷你图灵测试中获得的经验上的。回答因果关系之梯所有三个层级上的问题的能力孕育出了“智能体”软件的种子,使机器思考自己的意图并反省自己的错误成为可能。回答因果和反事实问题的算法已经有了(这在很大程度上要归功于我的学生),只待勤奋的人工智能研究者来应用这些算法。

第三个问题的答案当然取决于难以预测的人类事件。但从历史的角度看,在人类有能力做,或者已经掌握了相关制造技术的时候,人类很少选择选择不做或不制造。部分原因在于,无论是克隆动物还是把宇航员送入月球,很多事都是在真正做成了之后,我们才意识到我们在技术上有能力做到这件事。不过,原子弹爆炸是一个转折点,许多人因此认为我们本不应该发展这项技术。

自“二战”以来,科学家撤回可行性研究的一个很好的例子是1975年阿西洛马会议关于DNA重组技术的讨论,这项新技术被媒体视为对人类社会的威胁。这一领域的科学家设法就一系列合理的安全操作准则达成了共识,在随后的40年里,他们一直努力维护该协议的有效性并严格遵照执行。如今,DNA重组已经是一项常见的成熟技术了。

2017年,未来生命研究所召开了一次关于人工智能的“阿西洛马会议”,商定了23项原则,用于未来“普惠人工智能”(beneficial AI)方面的研究。[2]虽然其中的大多数指导原则与本书讨论的主题无关,但关于伦理和价值观的几条建议值得我们关注。例如,建议6:“人工智能系统在整个运行期间都应该安全可靠,并且可验证其实用性和可行性。”建议7:“如果某个人工智能系统造成了损害,我们应该有办法查明原因。”这两条建议清楚地表达了系统透明性的重要意义。建议10:“在设计高度自动化的人工智能系统时,应当确保其目标和行为在整个运行过程中与人类价值观保持一致。”这条建议相当含糊,但如果我们将其具体化为要求系统能表明自己的意图,并能使用因果关系与人类沟通的话,这条建议就具有了操作意义。

基于下面我对第五个问题的答案,我对第四个问题的回答也是肯定的。我相信我们能够制造出有能力辨别善恶的机器,它至少应该和人类一样可靠,而且有望比人类更可靠。我们对道德机器的首要要求是它能够反省自己的行为,其涉及反事实分析。一旦我们编写完使机器实现自我觉察的程序(无论其作用多么有限),我们就能赋予机器以同理心和公平感,因为这些程序建基于相同的计算原则,只不过需要我们在方程中添加一个新的智能体。

在精神层面,构建道德机器的因果方法与20世纪50年代以来科幻小说所热衷讨论的方法,即阿西莫夫的机器人定律,有着很大的不同。艾萨克·阿西莫夫提出了三大绝对定律,第一条就是“机器人不能伤害人类,也不能对人类个体受到伤害袖手旁观”。但是正如科幻小说反复展示的那样,阿西莫夫的定律总是会导致矛盾。对人工智能科学家来说,这并不奇怪:基于规则的系统最终总会出错。但这并不能说明制造道德机器就是不可能的,而是意味着我们不能使用规范性的、基于规则的方法去制造它,意味着我们应该为会思考的机器配置人类所拥有的那些认知能力,包括共情、远期预测和自制力,这样,它们就能够做出自己的决定了。

一旦我们制造出了道德机器,许多杞人忧天的观点就会随之消失,变得无关紧要。我们没有理由不去制造这种能比人类更好地分辨善与恶、抵御诱惑以及权衡奖惩的机器。在这一点上,就像那些国际象棋选手和围棋选手一样,我们甚至可以向自己所创造的事物学习。在未来,我们可以依靠机器来寻求明察秋毫、因果合理的正义,我们将进一步了解人类自身的自由意志“软件”是如何运作的,以及它是如何对人类自身隐藏其工作原理的。这种会思考的机器将成为人类的良师益友,而这正是人工智能送给人类的第一份,也是最好的一份礼物。

[1] AlphaGo中的核心技术是强化学习(reinforcement learning)和蒙特卡罗树搜索(Monte Carlo tree search),不仅仅是作者提到的深度学习。强化学习是除无监督学习和有监督学习之外的第三类机器学习方法,强调智能体和环境(抽象为一个马尔科夫决策过程)之间的互动,通过让智能体寻求期望奖励的最大化来习得从状态空间到行动空间的策略(policy)函数。在运筹学和最优控制理论中,强化学习也被称作近似动态规划。——译者注

[2] 这23项原则涉及(1)研究目标,(2)研究资金,(3)科学与政策,(4)科研文化,(5)避免竞争,(6)安全性,(7)故障透明,(8)司法透明,(9)职责,(10)价值观一致,(11)人类价值观,(12)个人隐私,(13)自由与隐私,(14)共享利益,(15)共享繁荣,(16)人类控制,(17)非颠覆性,(18)人工智能军备竞赛,(19)性能警示,(20)重要性,(21)风险,(22)递归自我改进,(23)共同利益。——译者注

上一章 封面 书架 下一章