您当前的位置:首页 > 当代文学 > 公式之美

贝叶斯定理:AI如何思考?

21 贝叶斯定理:AI如何思考?

AI是人类最优秀的机器,然而AI永远只是一个机器吗?

当笛卡儿说出“我思故我在”时,被认为是“人类的觉醒”。

第一个获得公民身份的机器人索菲娅 1被问道:“你怎么知道自己是机器人?”索菲娅的回答是:“你怎么知道自己是人类?”

机器人会反驳了?这到底是21世纪的福音,还是人类搬起石头砸自己的脚?

这几年,随着机器智能向“我思故我在”这个哲学命题步步逼近,AI(Artificial Intelligence,人工智能)已不再只是被动地向人类表述世界,而开始主观地表达意见。

Google自动驾驶汽车的操纵系统、Gmail 2对垃圾邮件的处理、由MIT主导的人类“写字”系统,以及最新的Siri(Speech Interpretation& Recognition Interface,语言识别接口) 3智能语音助手平台,还有挑战人类最后智慧堡垒的AlphaGo系统,都已经开始了“深度学习 4”暴风雨式的革命。

到底什么是“自我意识”,机器已经在主动思考了吗?

要回答这些问题,我们必然要研究AI背后隐藏着的一个数学公式:贝叶斯定理。

“不科学”的贝叶斯-拉普拉斯公式

贝叶斯定理是18世纪英国数学家托马斯·贝叶斯 5提出的概率理论。

该定理源于他生前为解决一个“逆向概率”问题而写的一篇论文。

在贝叶斯写文章之前,人们已经能够计算“正向概率”。例如,如:假设袋子里面有P只红球,Q只白球,它们除了颜色之外,其他性状完全一样。你伸手进去摸一下,可以推算出摸到红球的概率是多少。

但反过来看,如果我们事先并不知道袋子里面红球和白球的比例,而是闭着眼睛摸出一些球,然后根据手中红球和白球的比例对袋子里红球和白球的比例做出推测。这就是“逆向概率”问题。

贝叶斯的论文提出了一个似乎显而易见的观点:用新信息更新我们最初关于某事物的信念后,我们就会得到一个新的、改进了的信念。简单来说,就是经验可以修正理论。

通俗地说,就像一个迷信星座的HR(Human Resources,人力资源顾问),如果碰到一个处女座的应聘者,HR会推断那个人多半是一个追求完美的人。这就是说,当你不能准确知悉某个事物的本质时,你可以依靠经验去判断其本质属性的概率。支持该属性的事件发生得越多,该属性成立的可能性就越高。越多处女座的人表现出追求完美的特质,处女座追求完美这一属性就越成立。

这个研究看起来平淡无奇,当时还名不见经传的贝叶斯也并未引起多少人的注意,甚至连那篇论文,也直到他死后第二年的1763年,才由一位朋友整理后发表。

明珠蒙尘,就像凡·高,画稿生前无人问津,死后价值连城。

其实也情有可原,为什么贝叶斯定理两百多年来一直被雪藏、一直不受科学家们认可?因为它与当时的经典统计学相悖,甚至是“不科学”的。

与经典统计学中随机取样、反复观察、重复进行、推断规律的频率主义不同,贝叶斯方法建立在主观判断的基础上,你可以先估计一个值,然后根据客观事实不断修正。从主观猜测出发,这显然不符合科学精神,所以贝叶斯定理为人诟病是有道理的。

除了贝叶斯,1774年,法国数学家拉普拉斯也非常“不科学”地发现了贝叶斯公式,不过他的侧重点不一样。拉普拉斯不想争论,他直接给出了我们现在所用的贝叶斯公式的数学表达:

这个“不科学”的公式现在已经非常流行,就像微积分基本定理全称是牛顿-莱布尼茨公式一样,贝叶斯公式被称为贝叶斯-拉普拉斯公式应更科学。

你生病了吗?贝叶斯公式是这样工作的

贝叶斯定理素来以其简单优雅、深刻隽永而闻名,贝叶斯定理并不好懂,每一个因子背后都藏着无限的深意。

它到底是如何为人类服务的?

对于贝叶斯定理,参照下面的公式,首先要了解各个概率所对应的事件。

P(A|B)是在B发生的情况下A发生的概率,也称为A的后验概率 6,是在B事件发生之后,我们对A事件概率的重新评估。

P(A)是A发生的概率,也称为A的先验概率 7,是在B事件发生之前,我们对A事件概率的一个判断。

P(B|A)是在A发生的情况下B发生的概率。

P(B)是B发生的概率。

其中,也称为可能性函数(Likely Hood),这是一个调整因子,使预估概率更接近真实概率。因此,条件概率可以理解为后验概率 = 先验概率×调整因子。

而贝叶斯定理的含义也不言而喻:先预估一个先验概率,再加入实验结果,看这个实验到底是增强还是削弱了先验概率,修正后得到更接近事实的后验概率。

在贝叶斯定理含义中,如果调整因子,意味着先验概率被增强,事件A发生的可能性变大;如果调整因子,意味着B事件无助于判断事件A的可能性;如果调整因子意味着先验概率被削弱,事件A的可能性变小。

就知道你没看懂……那还是举个经常用到的例子吧!

生老病死,人生事尔,身体是革命的本钱。在当今医学发达的时代,疾病那只魔鬼似乎难逃科技之手,什么都能检查出来。

可你真的生病了吗?

倘若现有一种疾病,它的发病率是0.001,即1000人中会有1个人得病。

一袭白大褂的医学家研发出了一种试剂,可以用来检验你是否得病。它的准确率是0.99,即在你确实得病的情况下,它有99%的可能呈现阳性;它的误报率是0.05,即在你没有得病的情况下,也有5%的可能呈现阳性,即医学界令人头疼的“假阳性”。

如果你的检验结果为阳性,那你确实生病的可能性有多大?

假定A事件表示生病,那么P(A)为0.001。这就是先验概率,即没有做试验之前,我们预计的发病率。

再假定B事件表示阳性,那么要计算的就是P(A|B)。这就是后验概率,即做了试验以后,对发病率的估计。

P(B|A)表示生病情况下呈阳性,即“真阳性”,P(B|A)为0.99。

P(B)是一种全概率 8,为每一个样本子空间中发生B的概率的总和。它有两种子情况,一种是没有误报的“真阳性”,一种是误报了的“假阳性”。套用全概率公式 9后:

一种准确率为99%的试剂,呈阳性,本以为药石无医,可在贝叶斯定理下,可信度也不过2%,原因无它,5%的误报率在医学界可谓是非常高了。都说疾病是魔鬼,可以无情地夺去人类生存的希望,可在这看似冷酷的贝叶斯定理下,不到2%的概率可以说是极大的慰藉了。

贝叶斯公式逐步取得人类信任

今天的贝叶斯理论已经开始遍布各地。从物理学到癌症研究,从生态学到心理学,贝叶斯定理几乎像“热力学第二定律”一样成为宇宙真谛了。

物理学家提出了量子机器的贝叶斯解释,捍卫了弦和多重宇宙理论。哲学家主张科学作为一个整体,其实是一个贝叶斯过程。而在IT界,AI大脑的思考和决策过程更是被许多工程师设计成了一个贝叶斯程序。

在日常生活中,我们也常使用贝叶斯公式进行决策。

例如,我们到河边钓鱼,根本就看不清楚河里哪里有鱼,似乎只能随机选择,但实际上我们会根据贝叶斯方法,利用以往积累的经验找一个回水湾区开始垂钓。这就是我们根据先验知识进行主观判断,在钓过以后对这个地方有了更多了解,然后进行选择。所以,在我们认识事物不全面的情况下,贝叶斯方法是一种非常理性且科学的方法。

贝叶斯理论诞生两百多年没有得到主流学界认可,现在被认可主要因为两件事。

1.《联邦党人文集》作者揭秘

1788年,集结了85篇文章的《联邦党人文集》匿名出版。根据汉密尔顿和麦迪逊生前提供的作者名单,其中12篇文章的作者存在争议,而要找出每一篇文章的作者无疑是极其困难的。

哈佛大学和芝加哥大学的两位统计学教授采用以贝叶斯公式为核心的分类算法,先挑选一些能够反映作者写作风格的词汇,在确定作者的文本中对这些词汇的出现频率进行统计,再统计这些词汇在不确定作者文本中的出现频率,根据词汇的出现频率推断作者。十多年的时间,他们终于推断出12篇文章的作者,而他们的研究方法也在统计学界引发轰动,被禁锢了两百多年的贝叶斯公式终于从魔盒里释放出来。

2.美国天蝎号核潜艇搜救

1968年5月,美国海军天蝎号核潜艇在大西洋亚速海海域失踪。军方通过各种技术手段调查无果,最后不得不求助于数学家John Craven。

Craven提出的方案同样也使用了贝叶斯公式,他召集了数学、潜艇、海事搜救等各个领域的专家,共同研究出一张海域概率图,一边掷骰子一边通过贝叶斯公式搜索某个区域,然后根据搜索结果修正概率图,再逐个排除小概率的搜索区域,最终指向一个“最可疑区域”。几个月后,潜艇果然在爆炸点西南方的海底被找到了。

2014年年初,马航MH370航班失联,科学家想到的第一个方法就是利用海难、空难搜救的通行方法——通过贝叶斯公式进行区域搜索。这个时候,贝叶斯公式已经名满天下了。

语音识别贝叶斯公式开始展示“神迹”

最后让贝叶斯定理站在世界中心位置的是人工智能领域,特别是自然语音的识别技术。

自然语言处理就是让计算机代替人来翻译语言、识别语音、认识文字和进行海量文献的自动检索。一直以来,它都是科学家面临的最大难题,毕竟人类语言可以说是信息里最复杂、最动态的一部分,近几年引入贝叶斯公式和马尔科夫链后,它有了长足进步。

文字翻译尚可理解,但语音涉及各种动态语法,机器怎么知道你说的是什么?不过,只要你看到机器翻译的准确性,你也会感叹这简直就是“神迹”,它们比大部分现场翻译要准确得多。

语音识别本质上是音频序列转化为文字序列的过程,即在给定语音输入的情况下,找到概率最大的文字序列。一旦出现条件概率,贝叶斯定理总能挺身而出。

基于贝叶斯定理,语音识别问题可以分解为:给定文字序列后出现这条语音的条件概率及出现该条文字序列的先验概率。对条件概率建模所得模型即为声学模型 10,对出现该条文字序列的先验概率建模所得模型是语言模型 11。

我们用P(f |e)区别于以上的P(A|B)来解释语音识别功能。

统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的?我们需要计算P(f |e)。

P ( f |e )∝P ( f )×P ( e| f ) (∝符号代表“正比例于”)

这个公式的右端很容易解释:那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。我们只需简单统计就可以得出任意一个外文句子f的出现概率。

然而,P(e|f )不是那么容易求的,给定一个候选的外文句子f,它生成(或对应)句子e的概率是多大?好比英语翻译中,准确的翻译由具有高概率的句子组成,而翻译模型由大型双语平行语料库 12训练而成,将中文语料与英文语料中相应的词汇分词对齐,英文句子才能通过复杂的数据生成中文翻译。在定义了什么是“对应”后,也就可以计算出P(e|f )。

随着大量数据输入模型进行迭代和大数据技术的发展,贝叶斯定理的威力日益凸显,贝叶斯公式巨大的实用价值也愈发体现出来。

然而,作为人工智能产品的主要入口,语音识别仅仅只是运用贝叶斯公式的一个例子。实际上,贝叶斯思想已经渗透到了人工智能的方方面面。

贝叶斯网络AI智慧的拓展

语音识别是人工智能应用的一个重点,单个语音模型的建立让我们看到了贝叶斯定理解决问题的能力;而贝叶斯网络的拓展,则让我们看到了人工智能的未来。

借助经典统计学,人类已经解决了一些相对简单的问题。然而,经典统计学方法却无法解释由相互联系、错综复杂的原因(相关参数)所导致的现象,如龙卷风的成因,2的50次方种可能的最小参数值比对;星系起源,2的350次方种可能的星云 13数据处理;大脑运作机制,2的1000次方种可能的意识量子流;癌症致病基因,2的20000次方种可能的基因图谱……

面对这样数量级的运算,经典统计学显得力不从心。

科学家只能选择一些可以信任的法则,并以此为基础,建立理论模型。贝叶斯公式正好帮他们实现了这一点。

把某种现象的相关参数连接起来,再把所有假设、已有知识、观测数据一起代入贝叶斯公式得到概率值,公式结网形成一个成因网,即贝叶斯网络,如图21-1所示。

图21-1 贝叶斯网络模型图

这样一种描述数据变量之间依赖关系的图形模式就是贝叶斯网络,它提供了一种方便的框架结构来表示因果关系,使不确定性推理的逻辑更为清晰,可理解性更强。这也是贝叶斯网络被称为概率网络、因果网络的原因。

错综复杂的贝叶斯网表达了各个节点间的条件独立关系,我们可以直观地从网中窥知属性间的条件独立及依赖关系,那些现象的因果关系在这张大网中一目了然。

利用先验知识和样本数据,确立随机变量之间的关联,为求解条件概率这一核心目的行方便,这就是看上去眼花缭乱、令人望而生畏的贝叶斯大网络的本质。

一个又一个的节点,一个又一个的概率,都来源于人类的先验知识,即以往的经验、现有的分析等。人类认知的缺陷越大,贝叶斯网络展示的力量越让人震撼。

今天一场轰轰烈烈的“贝叶斯革命”正在AI界发生:贝叶斯公式已经渗入工程师的骨子里,贝叶斯分类算法 14也成为主流算法。在很多人眼中,贝叶斯定理就是AI发展的基石。

结语AI真的会思考吗?

AI的第一课,都是从贝叶斯定理开始。因为大数据、人工智能和自然语言处理中都大量用到了贝叶斯公式。

我们无法预测贝叶斯公式与计算机结合的真正威力,因为一切才刚刚开始。贝叶斯公式与AI的结合,这到底是一场科学的革命,还是一场理念的革命?到底是生产力的革命,还是人类在革自己的命?过去的科学家总结出客观的贝叶斯公式,现代科学家用这个公式给AI注射主观基因。这种主观仅仅只是一种数据的表达,还是意识觉醒的一种外在展示?而人类引以为豪的“我思故我在”,真的与AI的“贝叶斯思考”有区别吗?

1 索菲娅:由中国香港的汉森机器人技术公司开发的类人机器人,是历史上首个获得公民身份的机器人。索菲娅看起来就像人类女性,拥有橡胶皮肤,能够表现出超过62种面部表情,她的“大脑”中的计算机算法能够识别面部,并与人进行眼神接触。

2 Gmail :Google的免费网络邮件服务。它随附内置的Google搜索技术并提供15GB以上的存储空间,可以永久保留重要的邮件、文件和图片,快速地查找任何需要的内容。

3 Siri :苹果公司在其产品iPhone4S、iPad3及以上版本手机和Mac上应用的一项智能语音控制功能。利用Siri,用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。

4 深度学习:机器学习中一种基于对数据进行表征学习的方法,通过建立具有阶层结构的人工神经网络,在计算系统中实现人工智能。深度学习由Hinton等人于2006年提出。

5 托马斯·贝叶斯:18世纪英国神学家、数学家、数理统计学家和哲学家,概率论理论创始人,贝叶斯统计的创立者,“归纳地”运用数学概率,“从特殊推论一般、从样本推论全体”的第一人。

6 后验概率:在得到“结果”的信息后重新修正的概率;是“执果寻因”问题中的“果”;是事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。

7 先验概率:根据以往经验和分析得到的概率,它往往作为“由因求果”问题中“因”出现的概率,是事情还没有发生,要求这件事情发生的可能性的大小。

8 全概率:将对一复杂事件的概率求解问题转化为在不同情况下发生的简单事件概率的求和问题。

9 全概率公式:如果事件B1、B2、B3、…、Bn构成一个完备事件组,即它们两两互不相容,其和为全集,并且P ( Bi )大 于0,则对任一事件A有P(A )=P(A|B1) P(B 1)+P(A|B2)P(B2)+…+P(A|Bn)P(Bn)。

10 声学模型:语音识别系统中非常重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。对于语音识别系统,输出值通常就是从各个帧计算而得的声学特征。

11 语言模型:根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。

12 平行语料库:由原文文本及其平行对应的译语文本构成的双语语料库。语料库则是以电子计算机为载体,承载语言知识的基础资源,经科学取样和加工的大规模电子文本库。

13 星云:由稀薄的气体或尘埃构成的天体之一,包含了除行星和彗星外的几乎所有延展型天体。星云原本是天文学上通用的名词,泛指任何天文上的扩散天体,通常也是恒星形成的区域。

14 贝叶斯分类算法:统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。

上一章 封面 书架 下一章