为了顺利攻克贝叶斯法这个山头,在具体讲贝叶斯推理、贝叶斯计算之前,我们得先搭建一架梯子。这架梯子就是“条件概率”。
什么是条件概率?日常生活中,你肯定听过这样的话:“今晚刮大风了,明天应该不是雾霾天”“他昨天晚上睡得很晚,今天应该不会早起”,再比如“头大脖子粗,不是老板就是伙夫”……这些话都很有道理,但你有没有思考过,这些判断都是怎么得来的呢?它们背后的逻辑是什么呢?其实,这背后的逻辑就是条件概率。
所谓的条件概率,简单来讲就是,如果一个随机事件发生的概率会因为某个条件而发生变化,那在这个条件发生的情况下,这个随机事件发生的概率就是条件概率。
因为今天晚上刮大风了,所以明天出现雾霾的概率大大降低;因为昨天睡得晚,所以今天大概率不会早起;因为头大脖子粗,所以是老板或伙夫的概率大大提升……这不就是某个条件导致概率发生了变化吗?
这样的例子简直无处不在。比如我告诉你,我在文章里看到了一个词——苹果,请问说的是苹果这种水果,还是美国的苹果公司呢?不好判断吧?但是如果告诉你,这篇文章讲的是科技企业相关的,那自然的,这个词指代苹果公司的概率就要大一些;如果告诉你,我正在看父亲发给我的养生文章,那它指代水果的概率就更大;如果这是一篇讲供应链的文章呢?那这里的苹果既有可能是水果,也有可能是苹果公司,具体是哪个,就不好判断了。
也就是说,条件不一样,概率也会发生变化。
条件概率是有公式的,代入公式就可以直接计算概率,公式如下:
其中,P(A|B)为条件概率,表示在事件B发生的条件下,事件A发生的概率;
P(AB)为事件A、B同时发生的概率;
P(B)为事件B发生的概率。
举个例子。幼儿园某个班,60%的小朋友喜欢巧克力冰激凌,30%的小朋友喜欢巧克力冰激凌和草莓冰激凌。请问,在喜欢巧克力冰激凌的人里,也喜欢草莓冰激凌的人占多少?
假设有100个小朋友,60个喜欢巧克力冰激凌,30个喜欢巧克力冰激凌和草莓冰激凌。很明显,在喜欢巧克力冰激凌的60个人中,有30个人还喜欢草莓冰激凌,所以答案是50%。
带入条件概率公式,结果也一样:A=喜欢吃草莓冰激凌,B=喜欢吃巧克力冰激凌,则
我们介绍这个公式主要是为了了解其中的思想,公式本身并不重要。
一切概率都是条件概率
识别条件概率听上去似乎很简单,但在现实生活中,其实并不容易。还记得前面讲独立性时举的双黄蛋的例子吗?把鸡蛋装入盒子这件事看起来是完全独立的,但在“第一个是双黄蛋”这个条件下,后续装入盒子的也是双黄蛋的概率就会大大增加。你看,看似独立的事件,其实也是有约束条件的。
再比如,你家隔壁搬来了一位新邻居,中年男人,斯斯文文的,戴个眼镜。新邻居的职业是医生或工程师。如果我问你,新邻居更可能是医生还是工程师呢?你可能会说:“我怎么知道?一半对一半吧。”其实这样说不对,因为在这个城市里,工程师和医生的数量是不一样的,工程师的数量可能是医生的10倍不止。也就是说,这时候,新邻居是医生的概率只有是工程师的。猜一半对一半,可就和真实概率差太远了。
你看,对于“新邻居是医生还是工程师”这个问题,看起来也没有任何前提条件吧?但其实它有隐藏的条件,那就是这个城市工程师和医生的数量是不一样的。如果下意识地忽视了这个条件,认为工程师和医生数量一样,一半对一半,结果就会出错。当然,如果你们小区是医院的家属楼,那相应的隐藏条件又变了,新邻居是医生的概率可能就要远远高于是工程师了。
发现了吗,很多我们以为完全独立、没有条件的随机事件,其实都是有条件的,只不过它们的条件隐藏得很深,不那么容易被发现。如果忽视了这些条件,可就要犯错了。
其实严格来说,所有的概率问题都是基于条件的。
像我们刚才说的例子,都有条件,就连最简单的、概率论老师都愿意举的抛硬币的例子,其实也隐藏了很多条件。当我们说“硬币正面朝上的概率是50%”时,其实就隐含了很多条件,比如这个硬币的两面是均衡没有差异的,抛硬币的手法没问题,空气密度不影响硬币的结果,气流不会对硬币产生干扰等。
那我们说“明天太阳照常升起的概率是100%”这一客观规律时,是不是就没有条件了呢?不,它也是有条件的。条件就是地球还在围绕太阳公转,太阳系还没有毁灭。真要是“流浪地球”了,不就看不到太阳升起了吗?你看,一切事件都有条件。因此我们才说,本质上,现实世界所有的概率都是条件概率。
我们错误估计了一件事的概率,往往就是因为忽略了这件事的前提条件,导致对概率的计算或者预估发生了错误。
前提条件需注意的三个方面
那么,面对一个随机事件,需要从哪些方面来注意其前提条件呢?概括来说,可以重点关注以下三个方面。
第一,注意时间或空间的变化。
来看一个哲学中的悖论——突然演习悖论,当然它通常不是以概率问题的面貌出现的。问题是这样的,比如老师告诉我们,下周有个课堂随机抽查考试,周一至周五任何一天上午,老师会告诉大家当天要考试。
你立刻就会反应过来,这个考试肯定不是在周五,因为如果周一到周四都不考试,那么到了周四下午,大家就都知道周五肯定要考试了,既然肯定要考试,就不算抽查了,所以,周五被排除了。剩下周一到周四,同理,周四也不可能考试,因为排除了周五,周四就是最后一天了。周四被排除了,接着周三变得不可能了,接着周二,最后周一也被排除了。这样一想,你终于明白了,根本没有随机抽查考试这回事。结果周三早上,老师告诉你们当天考试。
这个悖论的本质是抽查是一件随机的事情,可分析来分析去,却发现这件事情并不随机。要解决这个悖论,理解条件概率很重要。你要知道随着时间的变化,随机事件发生的概率其实是变化的。考试的可能性也就是概率发生变化,依然是随机的。
我们假设周一到周五随机考试的概率相同,那么周一考试的概率显然是 ,周二到周五任何一天有考试的概率也都是
。可一旦情况发生了变化,比如周一没有考试,那周二考试的概率还是
吗?显然不是了,当前提条件发生了变化,周二、周三、周四、周五有考试的概率在周一早上没有宣布考试开始,就从
变成了
。同理,如果周二上午也没有宣布考试,那么从那一刻开始,周三、周四、周五有考试的概率从
变成了
。依次类推,过了周四早上,周五考试的概率就上升4到1了。
这就是条件概率的应用,时间、空间的变化会让一件事的概率不断地发生变化。如果忽视这个变化的信息的影响,还按照独立事件来计算,当然就要出错了。
第二,注意个体和整体的差异。
正常情况下,我们说一件事的概率是多少时,说的都是整体概率。但我们知道,个体之间是存在巨大差异的。比如,我们说“一个人一生中被闪电击中的概率是三十万分之一”,这就是一个整体概率,是所有地球人被闪电击中的平均概率。具体到每个个体时,这个概率显然是不同的。我每天待在办公室工作,被闪电击中的概率自然就会更低;而美国弗吉尼亚州有个叫萨利文的护林员,因为当地雷雨天很多,而他又天天在空旷的森林边工作,因此被闪电击中的概率就远比我高。不幸的是,他一生中被闪电击中了7次。
再举一个重大疾病保险的例子。对于重大疾病保险,中国银行保险监督管理委员会统一规定了必保的25种重大疾病。保险公司通常会按照年龄计算保费,比如在28岁这个年龄,患25种重大疾病的概率是多少,平均赔偿是多少,然后根据一系列的规则,计算出卖给28岁成年男性的重大疾病保险的保费应该是多少。但具体到某一个28岁的年轻人,他患这25种重大疾病的概率并不等于整体的概率。患病有基因的问题,也有生活习惯的问题,所以势必有一群没有患病基因、同时生活习惯良好的人,交的保费用来“补贴”易患病的人群。这就造成有重大疾病家族史的人群会购买保险,而没有家族史及生活习惯良好的人不愿意购买,而这又势必会推高保险价格,从而导致一方面重大疾病保险的覆盖率不高,另一方面保险公司也不容易赚到钱。
如果能根据个体患病概率对个体进行个性化定价,不仅可以提高重大疾病保险的覆盖率,还能保证保险公司盈利。这就像我们用淘宝买东西时用到的运费险。买家购买了运费险后,如果有退货行为,淘宝就赔偿给你8~12元的退货物流费。不同的人在不同的店买不同的东西,退货的概率是不一样的。淘宝针对每个个体在某个特定的商店里买特定货物的行为,计算出可能的退货概率,从而得出个性化的运费险价格,这就是条件概率的计算。这样个性化的定价策略,既能让运费险覆盖更多的人,又能给淘宝平台带来更大的收益。
以我自己为例,我一般购买运费险的价格是8毛多。如果我在某家店铺准备买某个商品时,发现运费险的价格是3元、5元,就说明这个商品或者这家店铺的退货率很高,我就会重新审视这个商品我是不是真的需要,或者再仔细看看评论,看看这个商品的描述是不是存在不全面和不客观的情况。
总而言之,整体概率和个体概率是有差异的,通过条件概率计算个体概率,更有可能获得个体的真实概率。
第三,注意某些会被忽略的隐含信息。
隐含信息是现实生活中最容易忽略的问题。这种忽略可能是被故意误导产生的,也可能是缺乏相关知识造成的。
比如,一种传染病的致死率是70%以上,另一种传染病的致死率是2%,哪种对世界更危险?很多人会脱口而出,当然是第一种更危险。但其实这里有个我们常常会忽略的隐含条件,那就是这两种传染病传播的范围和影响是不一样的。
其实,第一种传染病是埃博拉,第二种是新型冠状病毒性肺炎。虽然埃博拉病毒的致死率极高,但它远比新型冠状病毒性肺炎容易预防和诊断,传播效率远低于后者,影响的人群也远远小于后者。所以,虽然新型冠状病毒性肺炎的致死率低,但它对世界的影响更大。
忽略隐含条件,会给你的决策带来巨大的影响,造成巨大的损失。
操纵条件,改变概率
既然所有概率都是条件概率,那相应地,只要学会操纵这些条件,我们就能改变随机事件发生的概率。从必要性来说,学习这些可以避免自己被套路,陷入别人的骗局。更进一步,我们可以获得一些别人没有的优势,为自己争取更多的利益。
第一,运用条件概率识别骗局,避免被套路。
识别骗局、避免被套路这一点在一个案例中体现得特别明显,那就是法律界无人不知的“辛普森案”。案件的细节我就不多说了。如果想了解,你可以去得到App听刘晗老师的“刘晗讲辛普森案”。我们主要讨论一点,在这个案件的法庭辩论上,一个令双方律师产生严重分歧的条件概率问题。
在庭审的最初10天,原告列举了无数证据,证明辛普森常常家暴前妻。他们认为,“一个巴掌可能就是谋杀的前兆”,长期家暴说明辛普森有谋杀前妻的动机。被告律师则反驳说,家暴和谋杀没有必然关系。因为截至1992年,美国有400万妻子被家暴,但只有1432人被丈夫杀害,1432除以400万,被家暴妻子被谋杀的概率低于。所以,家暴证明不了辛普森谋杀。
你看,被告律师说的是,在家暴这个条件下,一个人谋杀妻子的概率并不会大大增加,所以不能因此判定辛普森有罪。他还举出了数据,听起来似乎有理有据。如果你是陪审团成员,你能相信他吗?
答案是,不能。
为什么呢?因为在这个计算中,被告律师忽视了一个条件——辛普森的前妻已经被杀害了。一旦“前妻已经被杀害”这个条件出现,问题就不再是“在家暴的条件下,丈夫谋杀妻子的概率是多少”了,而是变成了“在丈夫家暴妻子,且妻子已经死于谋杀的双重条件下,杀人凶手是丈夫的概率是多少”。
多了这一个条件,计算结果可是千差万别。“在丈夫家暴妻子,且妻子已经死于谋杀的双重条件下,杀人凶手是丈夫的概率是多少”这个问题的反面是什么呢?是“在丈夫家暴妻子且妻子已经被杀害的双重条件下,但杀人凶手不是丈夫而是其他人的概率是多少”。而按照被告律师的思路,他们求的是“在家暴的条件下,丈夫谋杀妻子的概率是多少”。这个问题的反面是什么呢?是“在家暴的条件下,妻子没有被丈夫谋杀的概率是多少”。显然,这是完全不同的两个概率问题。
事实上,如果真算起来,这个条件概率要远远高于。还是按照被告律师的数据,再结合美国1992年的数据,很多人大致做了个推演。在丈夫经常家暴妻子,且妻子确实死于谋杀的双重条件下,杀人凶手是丈夫的概率高达93%。也就是说,被家暴的美国妇女如果死于谋杀,凶手不是自己丈夫的概率只有7%。
我们使用频率法,把概率和百分比转换成事件发生的次数。如果有10万个被丈夫家暴过的妇女,那么其中大概有40个妇女最终会被丈夫谋杀(×100000=40)。而根据美国联邦调查局于1992年发布的女性被谋杀的数据推算,每10万个被家暴的妇女中有43个会被谋杀。所以,还有3个妇女被丈夫以外的人谋杀了。
也就是说,被谋杀的43个妇女中,有40个是被对她们实施家暴的丈夫杀死的。因此,在已知丈夫家暴妻子且妻子被人谋杀的双重条件下,丈夫是凶手的概率高达93%。
条件概率的计算如下。
事件A:妻子被丈夫杀害,事件B:妻子被家暴且妻子死亡,则在妻子被家暴且被谋杀的双重条件下,妻子是被丈夫杀害的概率为
当时,被告律师团队阵容非常豪华,其中甚至有哈佛大学的教授,所以我相信,他们肯定不是错误地使用了条件概率,而是巧妙地运用了辩论技巧,故意设了个骗局来欺骗陪审团。如果我们没有真正了解条件概率,就会很容易上他们的当,被他们带到沟里。
当然,必须得多说一句:即使概率高达93%,也不能证明辛普森杀害了前妻。条件概率只表示统计意义上的相关性,并不代表因果关系。家暴并不一定导致会谋杀,但家暴和谋杀妻子之间确实有很强的相关性。
另一个例子就很悲伤了。
1999年,英国一位名叫萨利的母亲接连失去了两名幼子。她的第一个孩子在出生后的第8周猝死,死亡原因是自然原因死亡。她的第二个孩子在第11周的时候也发生了猝死,她因此被告上了法庭。一位儿科专家以专家证人的身份出庭说,一个家庭中两个婴儿同时患猝死综合征的概率只有七千三百万分之一,这个概率太低了,全部的英国家庭加在一起也不会有一件这样的巧合发生。这个理由说服了陪审团,尽管本案除此之外,再也没有其他任何谋杀的人证、物证,也不存在任何杀人动机,但萨利最终还是被认定为谋杀了自己的孩子。
这个概率是怎么得出来的呢?数据显示,8500个像萨利一样的家庭中,就会有1例婴儿猝死,因此这位儿科专家通过简单的计算,得出同一个家庭中两个婴儿猝死的概率是。
读到这里,你发现错误了吗?这种计算方法的前提条件是同一个家庭连续猝死的婴儿是独立事件。很显然,这个前提假设是存疑的,即便是没有医学背景的人,也会自然联想到可能存在基因的问题。事实上,有统计数据表明,如果家庭一个婴儿猝死,那么这个家庭其他婴儿猝死的概率会增加,大概上升到。
对萨利家来说,第二个婴儿猝死的概率是吗?显然也不是。第一个孩子已经被医院证明是自然原因死亡了,那么这个前提条件已经存在的情况下,第二个婴儿猝死的概率就是,这才是应该提交给陪审团的概率数字。这一概率虽然小,但是远远大于七千三百万分之一的概率,而且是一个很可能发生的概率。这个数据意味着,经历了一次婴儿猝死的家庭,有1%的概率还要再一次承受同样的打击。很不幸的是,萨利就遇到了这1%的悲剧。
那位专家证人如果理解条件概率,萨利就不需要在判决被推翻之前遭受三年的牢狱之灾了,而这位专家证人也不会被判严重渎职罪了。
第二,操纵条件改变概率,为自己赢取优势。
你应该听过“高频交易”这个词,其本质就是通过快速地买进卖出,获取远超市场平均值的收益。这个词听起来很高端,但其实它的本质就是利用条件概率。
我们知道,影响股价的因素太多了。不用说一年、一个月的时间,即使一星期,甚至一天内,都有各种正面、负面的信息汇集在一起,很难把握其中的关键因素。但是,如果把时间段缩短,比如缩短到一秒甚至一毫秒内,再来看,影响股价的因素就变得比较单一了。这时候,再去把握关键因素,难度就会小一些,盈利的概率就会大一些。这就是高频交易的基础。其中利用的还是条件概率。
现代在线广告的精准投放也是利用了条件概率。广告促进销售的基本逻辑是让广告触达足够多的人,在触达的人群中会有一定的概率产生销售。传统在线广告的模式是这样的:假设一个网站一天访问量是10万,其中男女各占一半,网站开屏广告的广告费用是1万元,10万个访问用户都能看到这个广告。我的产品是剃须刀,其实只想触达男性用户,这样我一半的广告费就浪费掉了。但如果网站告诉我,我只要出6000元,就能让所有男性用户都看到我的广告,我肯定愿意,这样既省了广告费,又不影响广告触达的目标客户,何乐而不为呢?而网站可以把针对所有女性用户的开屏广告位卖给女性产品的客户,比如化妆品,价格也是6000元,化妆品客户同样也很乐意。这样一个开屏广告位就能卖12000元,网站只要能够辨别访问用户是男性还是女性就可以了。这就是用户画像,在每个用户背后加一个性别标签,这个数据就能变现出2000元,同时也让想投放广告的客户节省了广告费。
一个性别标签,就使得原来一个访问用户可以带来1毛钱的广告收益,变成了1毛2分钱,如果能有更多标签,能更精准地定位用户呢?那么每个访问用户的广告价值就会大幅提升,网站的广告收益也会大幅提升。而这就是几乎所有互联网公司最主要的收入来源。这里的基本逻辑就是,不同特征的用户购买某个产品的条件概率是不一样的。那些特征就是用户画像,就是标签,也就是条件概率的条件。找到更精准的条件,就能提高产品转化的概率,从而既增加了互联网公司的营收,又降低了客户单支产品广告的费用。这也是互联网公司收集用户信息、用户数据的根本原因。
说白了,条件概率就是计算和量化某个条件对随机事件的影响。日常生活中,我们总说“找到关键因素”,其实就是在寻找对这件事产生重大影响的条件,并计算条件概率。
本节思考题
美国某小镇昨夜发生了凶杀案,小镇居民非常紧张。警长跟大家说:“考虑到近10年来小镇只发生过2次凶杀案,这之后应该很久都不会再发生凶杀案了。”你站出来说:“虽然之前平均5年才发生一次凶杀案,但是下一次凶杀案的发生概率依旧是稳定的。这一次凶杀案并不会让小镇平静5年之久,根据泊松分布,平均一年内发生凶杀案的概率还是20%。”警长淡定地说:“是的,但是这个概率依旧很小,我们小镇还是很安全的,大家放轻松,正常生活吧。”
请问,警长的说法正确吗?我们还需要了解什么信息?
扫描二维码查看解析
5.2 贝叶斯推理:机器学习为什么需要大量信息
通过上一节的学习,我们知道了条件不同,随机事件发生的概率就不同。我们还知道,一切概率本质上都是条件概率。具体来说,概率问题可以分为以下两类。
第一类,我们知道原因,要去推测某个现象。
本质上,这类问题和抛硬币、掷骰子是一样的。知道了硬币两面是均衡没有差异的,问它正面朝上的概率;知道了骰子是均匀的,问掷出1点的概率。这些都是知道了原因,要去推测现象。这类概率问题叫作正向概率问题。
在现实生活中,我们常常会遇到第二类概率问题——看到了一些现象,要去推测背后的原因。这类概率问题也叫作逆概率问题。
拿看病这件事来说,如果已知一个人得了流感,问他发烧的概率是多少,即先知道原因是得了流感,问发烧这个现象出现的概率是多少,这就是正向概率问题。但如果反过来问,已知这个人发烧了,问他得流感的概率有多大,这时候问题就反过来了,即看到的现象是发烧了,推测导致发烧的原因,这就是逆概率问题。
生活里,逆概率问题非常多。比如,看到女孩接受了自己送的鲜花,推测她接受自己表白的概率有多大;傍晚看到了天边的晚霞,问明天会不会下雨;人力看到了面试者的测评结果,判断这个人的个人素质如何、是不是契合这家公司,等等。这些都是看到现象求原因,都是逆概率问题。
问题来了,对于逆概率问题,我们怎样处理呢?或者换句话说,怎样通过零散的现象来猜测背后的原因呢?这时候,频率法就失效了。我总不能表白一万次,看看成功多少次吧?频率法不行,那我们该怎么办呢?
解决这类问题的思路,就是这一节要讲的内容——贝叶斯推理。
贝叶斯推理的基本逻辑
虽然贝叶斯推理这个词听起来很高级,但它的思路其实很好理解。咱们举个例子来说明吧。
现在在你的正前方远远走来一个人,请问这人是男生还是女生呢?真要细究起来,其实挺难判断的。即使一个人长得非常像女孩,我们也不能完全确定TA就是女孩,对不对?
你可能会说,离那么远,我怎么知道?随便猜一个,男孩和女孩的概率50%对50%吧。
但抬头一看,呦,这人一头长长的黑发披散在肩上。按常识来说,留长发的肯定女孩更多,男孩很少留这么长的头发,所以TA更可能是个女孩。这时候,你就要调整自己的判断,TA可能是女孩的概率要提高到70%了。
再仔细一看,这人体型很娇小,而且腰很细,腰臀比很小,很有女性特征。自然,TA是女生的概率就更高了吧?
但是,再走近些发现,这人背着一把大吉他,后面还跟着三位带乐器的男生。到这时,你应该明白了,这四个人很可能是个乐队。而在乐队里,吉他手基本都是男生,很少有女生。想到这一点,你自然又要调整判断了,这人是男生的概率又增加了。当然,我不是说没有女吉他手,也不是说这人一定是男生,而是说TA是男生的概率非常大。
根据新信息不断调整对一个随机事件发生概率的判断,这就是贝叶斯推理。
这种思维方式其实非常常见。比如我们去医院看病时,医生判断病症的过程就是贝叶斯推理。医生最开始也不知道我们怎么了,但他们会询问我们哪里不舒服,发烧不发烧。得知发烧后,医生会考虑,普通感冒、流感、扁桃体发炎都有可能导致发烧,所以他会接着问,咳嗽不咳嗽,流不流鼻涕,身体犯懒不犯懒,甚至还会让我们去验血。最终,他会根据验血报告和各种病症,判断我们得了什么病,然后对症开药。这个过程就是贝叶斯推理。
再比如侦探破案的过程。福尔摩斯第一次看到华生时,就断言华生刚到过阿富汗。他怎么知道的呢?他先是看到华生是医务工作者,却一副军人做派,从而判断他是位军医;又看到华生面色黝黑,但是手腕上的皮肤很白,判断他肯定刚从热带回来;又因为华生面容憔悴,而且左胳膊受过伤,就判断他肯定是历经磨难。综合所有这些信息,一名英国军医,刚从热带回来,历经磨难,还负过伤,那这人肯定是刚从阿富汗回来。根据蛛丝马迹去调整判断、推测真相,这个过程也是贝叶斯推理。
概率是对信心的度量
看完前面的例子,不知道你有没有一个疑问:一个人到底是男是女,不是早就确定了吗?只是我们不知道而已。为什么我们会说对面走过来这人是男是女的概率一直在变呢?换个角度,我们说“这人是女生的概率是50%”的时候,我们到底是在说什么呢?是说这人是男是女的事实吗?
其实不是。这人的性别早就确定了,要么是男生,要么是女生,不存在百分之几十的性别概率叠加问题。如果找到这人的一根头发,做个基因检测,我们马上就能确认他的性别,做过变性手术都没用。那我们这里说的概率,究竟是什么呢?
其实我们说的是,我们对这个人是女生这个结果的相信程度达到了50%。注意,是相信程度。相应地,在看到对方的长头发、娇小的体态后,我们对TA是女生的相信程度提高了,就提高了这个概率判断。
在贝叶斯的世界里,概率本质上是对信心的度量,是我们对某个结果相信程度的一种定量化的表达。
生活里,我们说的很多概率,其实表达的都是我们对某个结果的相信程度。
比如说,一场精彩的球赛看下来,我们总说比赛跌宕起伏、千回百转,其实就是因为场上局势不断变化,我们对比赛结果和某支球队输赢的信心在不断调整。
再比如,当年苹果公司陷入危机,董事会没办法,只能邀请之前被自己踢出去的乔布斯回来。董事会邀请乔布斯回来的时候,他们并不知道乔布斯会怎样重整苹果,更不知道乔布斯能不能带领苹果走出困境。他们只是基于过往的经验,相信乔布斯具有这个能力。你看,还是相信。当时,还有很多人不看好乔布斯呢,这也是一种相信。
其他的,比如我们说明天下雨的概率是多少、我能拿下这个客户的概率是多少、凶手是某某某的概率是多少时,都是在表达一种信心。
回到第1章关于概率和随机的内容,我们说概率是对随机事件发生可能性的度量,而概率处理的事件的随机,是一种效果随机。
我们遇到的效果随机其实有两类。第一类是完全信息的随机性;第二类是非完全信息的随机性,也就是我们因为缺乏信息而不了解的随机性。好像有点拗口,但其实我一讲你就明白了。
第一类,完全信息的随机性,是指这类随机事件在任何人看来都是随机的。比如,骰子掷出的点数,轮盘停止的位置,一个放射性原子何时衰变。这个骰子、这个轮盘、这类放射性原子在每个人看来都是一样的,所有人了解的信息都是相同的。这类随机事件的概率可以用我们之前讲过的频率法进行度量。因为只要扔足够多次骰子,转足够多次轮盘,观察足够多次原子衰变,就总能对每个随机事件的相对频率做出合理的估计,并由此得到它们的概率。
第二类,非完全信息的随机性,是指对一个事件,不同人了解到的信息是不同的,因此这个事件对不同的人来说是不一样的。这种随机性更狡猾一点,其中的关键在于个体对信息的无知。比如,孕妇腹中的胎儿是男是女?我们都知道胎儿的性别早已确定,只是你不知道,所以你无法确定。而帮你做B超检查的医生是知道的,她只是不能告诉你。再比如,人们可以估计未来的某一天北京下雨的概率,但在不同的时间,根据不同的天气信息获取程度进行预测,预测到的下雨的概率是不一样的。而且这些预测都没有办法通过足够多次的重复、通过频率进行估算和度量的。但那一天越来越近,气象台知道的气象数据就会越来越多,信息越来越清晰,下雨的概率就会预测得越来越准确。
对于非完全信息的随机事件,由于信息不足带来的随机性,这时,概率本身就是一种对信心的度量。而这正是贝叶斯推理的用武之地。
贝叶斯推理的两大优势
根据新信息调整概率判断,听起来似乎挺普通的。但其实这是一种非常高明的思维方式,它具有两大优势。
第一,起点不重要,迭代很重要。
就像前面提到的判断男生女生的例子,最开始做出什么判断都没关系,甚至随便猜都可以。也就是说起点不重要,真正重要的是迭代。
贝叶斯不是推理一次就结束了,它是一个不断迭代的过程。每找到一个新信息,就会进行一次推理,得到一个新判断。而下一个信息,要么进一步证实我们的判断,要么削弱我们的判断,从而让我们对之前的判断进行调整。这样不断微调,慢慢地,结果一定会和真实状况越来越接近。
毫不夸张地说,贝叶斯推理得出的结论最后一定会无限逼近真相。
这其实也能给我们一个启示,人生输在起跑线上不要紧,要紧的是你能不能做时间的朋友,不断迭代自己的认知和思维模型。
第二,信息越充分,结果越可靠。
尽可能丰富的信息,是贝叶斯走向准确的最大保障。
比如,人工智能领域最具智能特征、最前沿的方向之一机器,它的底层理论就是贝叶斯推理。为什么谷歌训练人工智能识别猫和狗时,要给它看成千上万张照片?为什么特斯拉的自动驾驶汽车要进行各种路测,千方百计收集用户开车的数据?就是因为数据越多,可供调整的机会就会越多,计算结果就会越精确,越逼近真相。现在,人工智能识别猫和狗的准确率已经可以达到99%了。
其实,手机的面部识别功能也是基于这一原理。假设手机扫描人的面部后捕捉到40个位点的生物特征,它会记住这些特征。如果下一次扫描一个人的面部时,有38个特征都与之前的相符合,那理由很充分,两次扫描的八成是同一个人的面部,手机就会判断这是手机主人,自动开锁。但如果只有3个特征吻合,那这人是手机主人的概率太低了,手机就会拒绝开锁。
生活里,为什么我们总是寻找新信息、争取信息完备?其实就是为了运用尽可能多的信息,提高判断的准确率,其本质还是贝叶斯推理。
贝叶斯推理告诉我们,起点不重要,迭代很重要,这就需要我们保持充分的开放性并不断积累知识;而信息越充分,结果越可靠,这又要求我们随时调整、不断逼近真相。
每次精进一点,但要不断精进,这样的人可不就越活越通透,越活越聪明吗?
本节思考题
日常生活里,有些人看到喜鹊就开心,看到乌鸦就难受,还有人相信“左眼跳财,右眼跳灾”。你能用贝叶斯推理解释一下这样的行为吗?
扫描二维码查看解析
5.3 贝叶斯计算:为什么说数据是一种资产
贝叶斯推理的思路非常明晰,就是根据新信息调整概率。但具体要怎么调整,又要调整多少呢?这就要说到贝叶斯计算了。
很多人认为贝叶斯计算特别深奥、难懂,把它当作贝叶斯法的深水区。但事实并非如此。如果我告诉你,贝叶斯计算用到的贝叶斯公式里只有四个数,一个是我们要求的,一个是可以自己设定的,还有两个是要查资料获得的,将这四个数用简单的加减乘除四则运算计算一下就可以了,你还觉得它难吗?
贝叶斯计算真正重要的其实不是计算,而是理解公式背后的原理和思路,这也是我们学习贝叶斯计算的重点。
贝叶斯公式是正确无疑的
我们先来看一下这个十分重要、但并不复杂的贝叶斯公式。该公式是由一位名叫托马斯·贝叶斯(Thomas Bayes)的老先生提出来的。这位老先生的主业是牧师,副业才是研究数学,结果却在数学方面做出了重大贡献,成就之一就是提出了贝叶斯公式。当然,这个公式并不是贝叶斯凭空创造的,而是通过对条件概率公式做变形得出的。我们知道,条件概率公式为
所以
P(AB)=P(B | A)×P(A)。
改变上式中A和B的顺序得到
P(BA)=P(A | B)×P(B),
P(AB)是A、B同时发生的概率,和P(BA)是一样的,两个式子左边相等,所以右边也相等。于是就得到了著名的贝叶斯公式:
其中,P(A | B)表示在现象B出现的条件下,事件A发生的概率;P(B | A)表示事件A发生时,现象B出现的概率;
P(A)表示事件A发生的概率;
P(B)为现象B出现的概率。
简单来说,现象B出现的情况下事件A发生的概率,等于事件A发生时现象B出现的概率,乘以事件A发生的概率,再除以现象B出现的概率。
公式记不住不要紧,推荐你做个小卡片放在兜里,需要时随时拿出来看看。用小卡片帮助记忆一点儿不丢人。爱因斯坦就记不住水银密度的数值,被中学生问到时当场说自己不记得;美国的实习医生也都是随手拿着平板电脑,随时查阅。
总之,贝叶斯公式一共就涉及四个数,计算过程就是用右边三个概率数求左边的概率。
贝叶斯公式刚提出来的时候,并没有引起太大的轰动;反而是贝叶斯去世了之后,人们才越来越发现这个公式十分好用。原因很简单,它能解决逆概率问题。逆概率问题那么多,总得通过计算来解决吧?就像计算三角形面积需要面积公式一样,计算逆概率问题也需要一个公式,也就是贝叶斯公式。
贝叶斯公式的伟大意义就在于,对于逆概率这种难搞的概率问题,我们从此有了简洁的计算公式。
总之,记住一句话——从数学上说,贝叶斯老先生并没有发明任何东西,他只是对条件概率公式做了简单的变形。条件概率公式是正确无疑的,所以贝叶斯公式也一定是正确无疑的。
先验概率可以任性设置,调整因子必须客观
解决了贝叶斯公式的正确性问题和目的性问题,我们再来解决它的操作性问题。要想真正理解贝叶斯公式,我们就得对它做一个拆解,知道它每一部分都代表什么。
拿酒驾这件事来说。我们都知道,酒驾是很危险的,那一个人酒驾时出事故的概率到底是多少呢?
现在,我们对照贝叶斯公式,回顾一下贝叶斯推理的过程——根据看到的新现象或信息调整随机事件的概率,两相对照,你就明白公式里每一部分都代表什么意思了。对照贝叶斯公式
在这个例子中,B就是看到的新现象或者新信息,也就是酒驾;而A就是和现象B相关的随机事件,也就是出现交通事故。
自然地,公式的左边P(A | B),就是在酒驾的情况下发生交通事故的概率。这是我们要求的,不多说。
公式的右边P(A)就是发生随机事件A的概率,也就是出现交通事故的概率。这个概率又叫“先验概率”。“先验”就是先于经验,“先验概率”就是在看到新现象、重新计算之前,基于经验,甚至主观猜测得到的概率。
既然是基于经验和主观猜测得到的,那先验概率当然就可以任性设置。就像前面提到的,判断迎面而来的人是男是女时,最开始,这个概率的设置并不重要,50%、60%或者70%都可以。毕竟,贝叶斯推理是一个反复迭代的过程,后面总能通过一次次调整,一步步逼近真相。
不过话说回来,虽然先验概率的设置可以任性,但如果和真实情况相差太远,肯定要经过更长的计算过程才能获得相对靠谱的结果,事倍功半。所以,还是越贴近现实越好。设置先验概率时可以遵循以下三个原则。
第一,相信历史数据。比如判断一支球队和另一支球队比赛时获胜的概率,最好是去看它和这个对手的历史比赛数据;如果没有这个数据,就去看它最近和其他对手比赛的数据。
第二,参考专家意见。如果很难找到历史数据,那就去寻找专家的意见。
第三,平均设置概率。如果既找不到历史数据,又找不到专家,就可以平均划分概率,这样总不至于偏得太离谱。
说完了P(A)这个先验概率,我们再看公式右边的P(B | A)和P(B)。这两个数叫作“调整因子”。在酒驾的例子里,P(B)就是人们酒驾的概率,而P(B | A)就是在出现的交通事故中司机酒驾的概率。比如,每10起交通事故中,平均有3起的司机是酒驾的,那P(B | A)就是30%。
这里一定要注意,P(B | A)和P(B)这两个数一定得是客观的,必须找到具体的客观值,而不能拍脑袋随便设定。
有多少人上路行驶,有多少人酒后驾驶,又有多少交通事故里司机是酒驾的,这些数据我们都不清楚。不清楚就要去查,可以去交通部门、国家统计局等权威部门查统计资料。只有查过资料,才能客观地确定调整因子的大小。
关于交通事故中有多少司机是酒驾的,这很好查,拉出交通事故的数据单一查就知道了。开车上路的平均事故率也不难查,交通部门都会统计。
真正困难的是确定酒驾的概率,因为酒驾有人被查到了,有人没被查到,这怎么计算呢?其实,有一个替代数据可以参考,就是交警经常组织的酒驾检查的结果。你可以把它想象成随机抽样,用检查到的酒驾司机的数量除以检查车辆的总数,大致就是酒驾的概率。
总之,贝叶斯公式一共就涉及四个数,左边的数是我们要求的,右边一个数是可以随意设定的先验概率,另外两个数是必须客观的调整因子。通过数据、资料确定调整因子是计算的关键。有数据的,计算结果就准确,如果瞎猜或者没有准确数据,就很可能会越算越错。
根据结果改变调整因子
贝叶斯计算的难点不在于计算本身,而在于寻找客观数据、确定调整因子。
有些数据虽然找起来费劲,但只要下功夫,就肯定能找到。但有些数据,我们完全不可能找到。比如表白这件事,如果你问我:“刘老师,我如果对一个女孩表白,期间女孩一直深情地盯着我,请问我这次表白成功的概率是多少呢?你不是说贝叶斯公式很万能吗?能不能帮我算算?”不好意思,这没法算。
在这个例子里,现象B是女孩一直盯着男孩,随机事件A是表白成功。我们要求的是发生了表白过程中女孩一直盯着男孩的现象后,男孩表白成功的概率。P(B)就是女孩一直盯着男孩的概率,而P(B | A)是在所有表白成功的案例里,女孩一直盯着男孩的概率。很明显,这些根本没有人统计过,压根儿找不到数据,自然就没法算。
在处理类似的问题时,就不能生搬硬套使用贝叶斯公式,因为算也是瞎算,甚至可能越算越错。也正是因为这类问题目前不能准确计算,只能靠经验评估,所以一些所谓的“情感专家”“恋爱高手”才那么有市场。
不过对于这些问题,数学家也有办法,就是利用机器学习。它的思路是反着来的。拿让人工智能识别猫和狗来说,我们给它看成千上万张照片,告诉它“这只是猫”“那只是狗”。注意,一定要告诉人工智能真实结果。只有这样,人工智能才会根据结果反过来改变调整因子,最终让调整因子逼近现实,从而得到越来越靠谱的判断。这个不断看照片的学习过程,就叫“大数据训练”,或者叫“大数据喂养”。
为什么我们说在大数据时代,数据就是一种资产?因为只有拥有足够多的、多维度的数据,我们才能通过贝叶斯公式不断计算出某一件事情的概率。有了足够多的概率,我们才能知道你现在可能喜欢什么商品,喜欢什么歌曲,喜欢什么节目,才能知道你说的话对应什么文字,这些文字大概是什么意思,这幅图片里有什么等,才能知道某种情况有多大的风险,风险对应的收益有多大,金融产品该怎么设计和定价等。
要知道,科技金融的本质已经从人对金融的理解,变成了通过数据对风险进行发现,通过概率对风险进行定价,通过金融工具对风险进行转移。
而对于一些更极端的概率问题,比如疫情什么时候结束,第三次世界大战什么时候爆发,下一次金融危机什么时候出现等,这时候连基本的数据都没有,我们该怎么办呢?
老实说,没有太好的方法。不过瑞·达利欧(Ray Dalio)在《原则》(Principles)这本书里提到的一个决策方法可以借鉴,就是赋予每个人决策的权利,然后给每个人的判断赋予不同的权重,专家的权重高一些,普通人的权重低一些,最后把所有人的判断结果加权求平均。这个方法或许不能保证正确,但一般不会错得很离谱。
本节思考题
乳腺癌是一种很常见的疾病,假设发病率是25%。小叶在医院进行乳腺癌检查时,发现结果是阳性。我们知道,检查结果会有误差,已知乳腺癌检查的准确度是90%,那么小叶患乳腺癌的概率是多少呢?
扫描二维码查看解析