1.1 随机:随机和不确定是一回事吗

1.1 随机:随机和不确定是一回事吗

序章里提到,概率论解决问题的思路是把局部的随机性转变为整体的确定性。这句话里有一个很重要的词——随机。问题来了,到底什么是随机呢?

随机就是不可预测

生活里,我们经常会用到“随机”这个词:听歌时,我们可能会选择“随机播放”模式,也就是说,我们不想知道接下来播放哪一首歌,音乐软件帮我们挑一首就行;逛街时,我们可能会被拦下填写问卷,对方会告诉你,他们是随机选择填写者的,事先并不知道会选中你;打篮球投篮时,我们会说这次投篮是否命中是随机的,无法预测……

我们常常用到“随机”这个词,但是,到底什么是随机呢?

我们似乎模模糊糊地知道随机是什么,可是真要解释一下,好像又不太能说得明白。

其实不光我们说不明白,数学家们争论了这么多年,也没法给出一个统一的定义。他们能达成的唯一共识是——随机就是不可预测。我们说一件事情是随机的,指的是这件事发生的结果是不能被预测的。

随机性不等于不确定性

很多书籍、文章都会告诉我们,随机是不可预测,而不可预测就是不确定,所以随机性和不确定性是一回事。但事实上,这两个概念并不等同。

随机性和不确定性最大的差别在于,事件可能出现的结果是否可知。

简单地讲,随机性是指事件可能出现的所有结果我都知道,只是不知道下一次会出现哪种结果。比如,随机播放音乐时,虽然不知道接下来会播放哪一首,但歌单里总共10首歌,下一首肯定是这10首里的一首;在街上被拦下填写问卷时,虽然对方不知道被选中的是谁,但是“每走过10个人就拦下一个”的规则是提前设计好的,被选中的人一定在刚刚路过的10个人里;打篮球时,虽然不知道下一次投篮会不会命中,但只有投中和投丢两种可能的结果。你看,随机事件所有可能的结果都是可知的。

而不确定性,则是指我们完全不知道事件可能会出现哪些结果。比如,我今天出门会发生什么事情就是不确定的,而不是随机的。因为可能发生的事太多了,如堵车、下雨、碰到熟人、捡到钱,等等,根本没法穷尽所有可能的结果。

只有知道了事件全部可能的结果,才能分析各种结果的概率;不知道事件全部可能的结果,就没法深入研究。所以说,概率论面对和处理的是随机性,而不是不确定性。随机事件的结果选项具有可知的特性,这是概率论发挥作用的基础。

从本质上来说,不确定性包含随机性,随机性是不确定性的一种类型。

拿我们熟悉的“黑天鹅事件”和“灰犀牛事件”这两个概念来说,前者作为无法预知的意外事件,其特点就是不确定性。因为黑天鹅事件中新风险的类型无法知晓,所以这类事件没法用概率描述。而后者作为可以预见的潜在风险,其特点就是随机性。因为灰犀牛事件中的风险类型是已知的,你知道它很可能发生,只是不知道什么时候发生,这就是随机性。所以说,黑天鹅事件不是概率论讨论的内容,灰犀牛事件则属于概率论研究的范畴。

当然,很多不确定性事件是可以转变成随机性事件的。比如,对于“我今天出门会发生什么事”这个问题,由于可能的结果没法穷尽,因而这是个不确定性问题。但如果把问题修改一下,变为“今天出门遇到的第一个人,是我认识的人还是不认识的人呢”,就把不确定性问题变成了随机性问题,变成了“可能遇到认识的人或不认识的人”的概率问题了。

遇到不确定性问题时,尽量把它们转变为随机性问题,这样就可以用概率的方法去研究它们了,这也是应对不确定性问题的科学方法。

真随机、伪随机和效果随机

在数学中,我们可以对一个概念给出精确的定义;但在现实世界中,真实情况始终会与数学定义有一些误差。以“圆”这个概念为例:数学中,我们可以定义一个标准圆;但在现实世界里,我们永远见不到一个绝对标准的圆。无论你画得多精准,肯定都会存在误差。但是没关系,只要从效果上来说是圆形的,我们就可以认为它是圆的。比如硬币、井盖和“天宫一号”的对接口,虽然它们不是绝对意义上的圆形,但我们仍然认为它们是圆的。

随机也是如此。数学中定义的随机,在逻辑上就是绝对不可预测,这也是随机的理想状态,这种随机我们称为真随机。

世界上有没有这种绝对不可预测的真随机现象呢?如果你去问物理学家,得到的答案可能是四个字——量子涨落。什么意思呢?简单来说,量子理论的“不确定性原理”允许空无一物的空间产生少许能量,这个能量的产生就是完全随机的。这个理论很复杂,你不需要深究,只要知道这个世界可能真的有真随机现象就好了。

但现实生活中,这种绝对意义上的真随机现象几乎无法遇到,就像在现实世界中没有一个绝对标准的圆一样。绝对意义上的真随机也很难获得,我们日常生活里遇到的随机现象基本都不是真随机,但只要我们感知到它的效果是随机的,就可以把它当作随机来看待,这种随机我们称为效果随机。

还是来看投篮的例子。影响投篮是否命中的因素有很多,比如出手的角度、力度、速度,球的旋转,当时的风向、空气密度等。如果把所有这些因素全部控制在适当的范围内,投出的球必然会中。这时结果就是确定的,而不再是随机的了。

但在现实生活中,我们既没有办法完全控制出手时力量的细微差别,也没办法完全计算风向、空气密度这些环境因素的影响,所以投篮是否命中这件事对我们来说,仍然是随机的,我们把它视为效果随机。同样的,抛硬币、掷骰子的结果也都是效果随机。

除了真随机、效果随机,生活里还有一些现象是典型的“伪随机”。也就是说,一个事件看起来是随机的,但其实不是。那么怎么证明呢?当然是寻找事件的规律。只要有规律,事件就一定不是随机的。

比如,玩石头剪刀布这个游戏时,出石头、剪刀还是布,每个人都有自己的规律,很难做到效果随机。一旦发现了其中的规律,也就证明了它是伪随机。而在这个游戏中,水平高的人不过是能发现对手看似随机的出拳中的规律罢了。我就发现我女儿每次出石头之后,下一次一定会出布。她以为自己每次出拳都是随机的,而我早就发现了其中的规律,并且总是靠这个规律赢她。因此,当我想让女儿干什么事,或者不想让她玩iPad,又或者不想让她吃冰激凌时,总是会跟她玩石头剪刀布的游戏,毕竟我很容易就能赢她。当然,我希望我女儿看不到这部分内容。

事实上,人类是很差劲的随机生成者。越想制造随机,我们的主观性就越强,而这样制造出来的随机,往往就是伪随机。一般来说,我们要创造随机,需要借助一些物理装置,比如骰子、翻书、硬币等,这样才能撇除人的主观性。

当然,同样一个行为,对不同的人来说可能就是不同的随机类型。比如,女儿和我玩剪刀石头布的游戏,对我来说她的出拳属于伪随机;而如果她跟另一个小朋友玩这个游戏,她的出拳可能就成了效果随机。随着我们对世界的认知不断深入,对事情的规律不断发掘,很多时候,我们以为的效果随机就逐渐变成了伪随机。

简单总结一下,绝对意义上的真随机只存在于量子层面,现实中很难遇到;伪随机只是披着随机的外衣,它本身是有规律的;而我们现实生活中遇到的大部分随机现象,都是效果随机,它也是概率论这门学科研究的重点。

随机是世界的决定性力量

不管是真随机、效果随机还是伪随机,我们都需要知道,随机是这个世界的决定性力量。怎么解释这种力量的作用呢?我们举两个例子。

第一个例子,我们还是来说网球运动员费德勒。费德勒的相对弱点是接反手球。大部分网球运动员在接反手球时是用双手击球,而费德勒是用单手击球。单手击球虽然速度快,但回球的力量相对较小。如果大力给费德勒反手球,就会降低他回球的质量。

怎么利用这一点呢?是不是要一直给他反手球呢?不是的。如果一直给他反手球,他就能预测你的进攻,然后做出相应的调整。你唯一能利用的,就是随机:给他一定的正手球、一定的反手球,不让他知道你什么时候给反手球。这样,他就更有可能暴露出弱点。你看,这就是用随机战胜对手的例子。

第二个例子来自转基因作物。如果人类发明了抗某种害虫的转基因作物并全面种植,之后会出现什么情况呢?这种害虫会消失吗?恰恰相反,在生存压力下,害虫会快速通过基因突变,“有目的”地进化出对抗这种抗虫性的能力,而这种转基因作物很快就会失去抗虫性。这是因为害虫的基因突变是随机的,突变量很大,没有突变出对抗这种抗虫性能力的害虫,很快被消灭了;快速突变出这种能力的害虫,则被留下了。最终,留下的害虫全部进化出了对抗这种抗虫性的基因。这样一来,这种转基因作物的抗虫性就失去了效果。

我们该怎么办呢?从随机的视角来看,我们应该在转基因作物的旁边开辟一块区域,种植非转基因作物,让害虫在这个区域继续进行随机性的基因突变。这样就能大大降低它们进化出抗虫性的概率,转基因作物也就能持续有效。

了解了随机,才会懂得随机的力量,才能更好地利用随机做出正确决策。

本节思考题

我们都玩过微信的拼手气红包,请问我们抢到的红包金额是随机的吗?

扫描二维码查看解析

1.2 概率:黑天鹅事件为什么无法预测

这本书书名中的“概率论”,简单说就是“论概率”,也就是对概率的讨论。所以我们说,“概率”是整个学科最基石性的概念。这一节,我们就把这个基石性的概念一次性讲清楚。

概率是随机事件发生可能性的定量描述

“概率”的定义有很多种,最经典的是现代概率论的奠基人之一安德雷·柯尔莫哥洛夫(Andrey Kolmogorov)于1933年给出的公理化定义:

设E是随机试验,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率……

我知道你已经看懵了。不过请放心,我不打算用抽象的数学定义给你讲概率,这一节不会,整本书也不会。形式化的定义和公式是数学家的交流语言,可以准确、方便地传递复杂内容,甚至在我看来极具美感。但是,如果你对这种语言不熟悉,就很难去理解它。

数学不应该仅仅是数学家才能挑战的抽象游戏,还应该是普通人能够掌握的解决现实问题的工具。通过使用这个工具,了解数学对现实世界的理解和其中孕育的思想,才是数学真正的魅力。因此,我要给你一个更方便理解的定义——概率是对随机事件发生可能性大小的定量描述。

这个定义有两个关键词,第一是“随机事件”,第二是“可能性大小的定量描述”。

先来说“可能性大小的定量描述”。我们有时会说,网坛名将费德勒很厉害,夺冠的可能性很大。这样说肯定没错,但是不精确,很大是多大呢?这时我们就可以用概率,也就是用一个数字来描述这个可能性的大小。比如,这次比赛,费德勒夺冠的概率是80%。这就是一种定量描述,就能和其他人夺冠的可能性比较大小,我们也就知道谁最有可能夺冠了。

再来看第一个关键词——随机事件,在概率论中,随机事件也可简称为“事件”。别被它的名字迷惑了,这个“事件”和我们平时说的“事件”意义完全不一样。比如,我们会说日本偷袭珍珠港事件、卢沟桥事变事件等,这里的“事件”是指一件已经发生的事情。而概率论中说的随机事件是什么呢?下面来看几个例子。

我们问“这一场比赛费德勒获胜的概率是多少”,那“这一场比赛费德勒获胜”就是一个随机事件;我们问“下一次掷骰子出现6点的概率是多少”,那“下一次掷骰子出现6点”就是一个随机事件;我们问“今年村上春树获得诺贝尔文学奖的概率是多少”,那“今年村上春树获得诺贝尔文学奖”就是一个随机事件。

本质上,随机事件是概率论中的一种表述方式,只有符合这种表述方式的事件,我们才能度量它的概率。那么,随机事件的表述方式是怎样的呢?可以总结为一句话:设定一个条件,从可能性的角度出发,对某一个发生结果进行陈述。

任何你感兴趣的事情,都可以用这种表述方式转化成随机事件,从而度量其概率。当然,这句话有点长,限定条件也很多,我来一一解释。

第一个限定条件是,设定一个条件。前面的例子中,这一场比赛费德勒获胜的“这一场”,下一次掷骰子掷出6点的“下一次”,今年村上春树获得诺贝尔文学奖的“今年”,都是限定条件。这类限定条件是必需的。比如,你不能不加限定地问人类登上火星的概率是多少,这种问题就没法计算;而加上时间限定条件“2050年”后,问题就变成了“人类在2050年登上火星的概率是多少”,就可以计算概率了。

第二个限定条件是,从可能性的角度出发。可能性包括两种情况:一种是这件事还没发生,比如“明天下雨的概率是多少”,明天还没到,我们只能从可能性的角度提问;另一种是这件事已经发生了,但我们还不知道,比如“现在我家地底下有石油的概率”,现在我家地底下有没有石油是个客观的已发生的事实,只是我们不知道,因此也可以从可能性的角度提问。你看,不管是这件事还没发生,还是已经发生但我们不知道结果,只要是还不确定结果的事件,我们就可以从可能性的角度提出问题,度量它的概率。

第三个限定条件是,对某个发生结果的陈述。这一限定条件是指,陈述的必须是一个随机结果,而不是不确定性结果。上一节讲了,随机不等于不确定,概率论能解决随机问题,但不能解决不确定的问题。

只要按照上面三个限定条件,任何事情都可以转化为随机事件。至此,我们就明白了概率的第一层意义——概率,是对随机事件发生可能性大小的定量描述。

概率是随机事件在样本空间的比率

知道了概率是对随机事件发生可能性大小的定量描述,我们就会面临一个新问题——这种定量描述是怎么得来的?

你可能会说,就是通过那些让人头大的复杂计算得来的呗。没错,确实是通过复杂计算得来的。但我要告诉你的是,这些计算没有什么可怕的,不管多么复杂的计算,背后的思路都是一致的,就是计算随机事件在样本空间的比率。

这里又有了一个新概念——样本空间。这其实很好理解:一件事可能发生的所有结果,就是这件事的样本空间。在数学上,我们常常用集合来表示所有结果,所以叫“样本空间”。

比如抛硬币,结果不是正面就是反面,那么“结果是正面”和“结果是反面”就构成了抛硬币这件事的样本空间。再比如,每届世界杯有32支球队参赛,虽然我们不知道谁会夺冠,但夺冠的队伍肯定在这32支队伍内,所以这32个结果就构成了获得世界杯冠军这件事的样本空间。

在集合的定义下,随机事件是样本空间的一个子集,属于样本空间的一部分。拿掷骰子来说,每次掷骰子可能的结果有6个,就是1点、2点、3点、4点、5点和6点,而这6个结果就构成了掷骰子这件事的样本空间。不管是“点数是1”“点数是2”这样单一的不能再分的结果——又称为“基本事件”,还是“点数是偶数”“点数是奇数”这样一组组合的结果,都是样本空间的一个子集,都是样本空间的一部分。其实反过来也成立,样本空间里的每一个子集,也都是一个随机事件。

换句话说,随机事件和样本空间就是子集和全集的关系。而子集和全集的比率,也就是随机事件占样本空间的比例,就是这个随机事件发生的概率。

掷骰子时,样本空间是1点~6点,共6个结果。掷到1点的概率,就是1点这个结果在总共6个结果中所占的比例,也就是 。因为概率指的是两个数值的比率,所以概率是没有单位的,就是一个数。

理解了这层含义,我们就能推导出概率的三个性质:

第一,概率的值永远在0~1之间,不可能是负数。

第二,样本空间里所有基本事件的概率之和是1。样本空间就是所有可能发生的结果的集,而基本事件的概率加在一起必然是100%,也就是1。一定不会出现样本空间里所有基本事件的概率之和小于1或者大于1的情况。

第三,某个随机事件不发生的概率,等于1减去这个事件发生的概率。比如,某届世界杯比赛,巴西队夺冠的概率是21%,那巴西队不夺冠的概率就是1-21%=79%。

当然,在数学定义中,概率有一个完整的公理体系,这里就不一一介绍了,了解这三个基本性质就可以了。

排列组合法则

要注意的是,在计算样本空间时,要把所有可能的结果都考虑到。

为什么要强调这一点呢?我给你举个例子。如果生男生女是等概率的,朋友家先后要了两个小孩,那都是男孩的概率是多少呢?

按刚才说的,要先列出所有可能的结果。所有可能的结果是几种呢?是“全是男孩、全是女孩、一男一女”这三种吗?不是的。所有可能的结果其实是四种——男男、男女、女男、女女,所以两个都是男孩的概率不是 ,而是

“先有一个男孩再有一个女孩”和“先有一个女孩再有一个男孩”,虽然都是一男一女,但它们次序不一样,因此是两种结果。这里我们使用了排列组合法则,就是先“排列”,再把各种情况“组合”到一起。排列是要分先后顺序的,所以使用这个法则时,各个事件也要分先后。

其实,大部分这类的概率问题,考的都不是计算能力,而是排列组合的能力,也就是看你能不能把所有的情况都排列、组合出来。

样本空间的完备性就像一个幽灵

到这里,你对概率的理解已经超过90%的人了。但在这一节的最后,我还想多说一点:因为概率是随机事件在样本空间中的比例,所以我们计算概率的前提,就是找到所有可能发生的结果,用数学语言来说,就是保证样本空间的完备性。如果样本空间不完备,那算出的概率一定是错的。但问题是,样本空间的完备性就像一个幽灵,很难捕捉。

比如每年的奥斯卡最佳影片奖,评委会从入围的几部影片中评出一部最佳影片。你考虑了入围的所有影片,估算了每部影片得奖的概率,而且所有概率加起来也恰好是1。你是不是觉得这个样本空间没问题了?不,问题很大。

比如,万一当年的最佳影片奖空缺了呢?虽然这一情况暂未出现,但并非不可能。像第33届中国电影金鸡奖的获奖名单中,最佳音乐奖就是空缺的;2018年的诺贝尔文学奖,当年就没有评。你把“空缺”这个结果放到样本空间中考虑了吗?

再比如,万一当年的最佳影片奖有并列情况呢?这也不是不可能的。近20年来,被誉为“中国奥斯卡”的金鸡百花电影节,最佳故事片奖、最佳男女主角就经常是“双黄蛋”,也就是由两部影片或两名演员共同获得。你把“并列”这个结果放到样本空间中考虑了吗?

所以我们才说,样本空间的完备性就像一个幽灵。而如果样本空间不完备,我们计算的概率就会有偏差,决策就会出错。

明白了这一点,你就会理解很多现实问题。比如,经济领域中的“黑天鹅事件”之所以无法预测,本质就在于我们完全不知道它,它压根儿不在我们的样本空间里,当然就没法计算它的概率。只有它发生过了,我们知道它可能会发生,它才会进入我们的样本空间,它的概率才能被计算。

更深入一点,从某种角度来说,我们对世界的探索,就是对样本空间的完善。原子衰变到底能放出多少种粒子?决定恒星运动的力到底有多少种?影响股票涨跌的因素到底有多少种?……人类探索未知世界的每一次突破性进展,其实都是在完善我们的样本空间。

有些时候,我们会忽视样本空间的完备性,进而会对事物产生一些错误的理解和不正确的认识,这也是刻板印象的来源。比如,有人认为“漂亮的姑娘不聪明,聪明的姑娘不漂亮”,这就是一个忽视了既聪明又漂亮的姑娘,以及既不聪明又不漂亮的姑娘的样本空间;再比如,“成绩好的学生一定是高分低能的学生”的说法,就是忽视了成绩不好能力也差的一类学生,以及成绩好能力也好的一类学生。

完善样本空间,会让我们对这个世界的认知更全面、更清晰。当一些不在我们样本空间的未知事件发生时,我们可能会感到惊讶,甚至震惊。而要培养“处变不惊”的能力,就需要通过学习和经历来增加阅历,从而逐步扩展自己的样本空间。

本节思考题

老王家有3个孩子,只有1个女孩的概率是多少?( )

A. 有3个孩子,其中1个是女孩,那概率就是

B. 如果按照出生顺序,3个孩子有8种情况,只有1个女孩的情况有3种,所以概率是

C. 老王家可能有0个、1个、2个、3个女孩,有1个女孩是其中1种情况,所以概率是

扫描二维码查看解析

1.3 独立性:连续5次正面,第6次抛硬币时正面可能性更大吗

“独立性”这个概念描述的是随机事件之间的相互关系。只有明白了一个随机事件和其他随机事件的关系,能判断该随机事件是否具有独立性,才能正确分析和度量它的概率。

随机事件的两种关系

什么是“独立性”呢?

通俗地讲,如果随机事件之间没有任何关联,我们就可以说这些随机事件是相互独立的,它们各自就具备独立性。而这种具备独立性的随机事件,也被称为“独立事件”。

这样说好像有点儿抽象,举个例子你就明白了。

比如,今天晚上你想吃火锅,可是你女朋友想减肥,她提议吃蔬菜沙拉,然后你们决定通过抛硬币来解决,正面就吃火锅,反面就吃沙拉。第1次,你抛了正面,你女朋友说还没开始呢,让你再抛。第2次,你又抛了正面,你女朋友说这次只是试手,不算。也许是冥冥之中得到了火锅店老板的庇佑,你连续抛了5次都是正面。你女朋友惊呆了,她说,再来最后一次,如果是正面,我们就去吃火锅,如果是反面,你还得陪我吃沙拉。

问题来了,今天晚上你们到底是更有可能吃火锅,还是更有可能吃沙拉呢?也就是说,第6次抛硬币,结果是正面和反面的概率分别是多少呢?

赌徒谬误(Gambler's Fallacy),也称蒙地卡罗谬误,主张由于某件事发生了很多次,因此下次不太可能发生。

你可能会担心,都连着抛了5次正面了,下一次硬币出现正面的概率肯定很小,出现反面的概率会很大。这个判断对吗?不对!这种思考方式犯了一个典型的错误,就是我们常听说的“赌徒谬误”赌徒谬误(Gambler's Fallacy),也称蒙地卡罗谬误,主张由于某件事发生了很多次,因此下次不太可能发生。

热手谬误(Hot Hand Fallacy),主张由于某件事发生了很多次,因此下次很可能再次发生。

当然,你女朋友可能更担心,前5次都是正面,下一次很可能继续是正面。这个判断对不对呢?也不对,这就犯了另一个错误——“热手谬误”热手谬误(Hot Hand Fallacy),主张由于某件事发生了很多次,因此下次很可能再次发生。

概率更大不对、更小也不对,那正确答案是什么呢?正常情况下,第6次抛硬币结果是正面的概率还是

第6次抛硬币跟前面5次抛硬币是相互独立的,不管前5次结果怎样,第6次出现正面的概率都还是 。这一次抛硬币的结果不会影响下一次的结果,这就是独立性。抛硬币是一个典型的独立事件。

两个随机事件相互独立,用概率论的学科语言表述,就是一个随机事件的发生,不影响另一个随机事件发生的概率。也就是说,下一个随机事件发生的可能性,不会被上一个随机事件所影响。如果两个随机事件互相有影响,那它们就是非独立的。

要么具有独立性,要么具有非独立性,随机事件之间只有这两种关系。

独立性的重要意义

看到这里你可能会问,知道独立性的定义有什么用?辨别随机事件的独立性又有什么意义呢?

还是先来看一个例子。前面说过,我女儿在玩剪刀石头布游戏时是一个非常差的随机制造者,她每次出石头之后,下次一定出布。

这个规律代表什么呢?其实,用概率论的语言表达就是,我女儿上一次出拳的结果,影响了下一次出拳的结果。当她上一次出了石头时,下一次出拳就不再是石头、剪刀、布各1/3的概率了,而是变成了出布的概率是100%。你看,两次出拳并不具备独立性,而是相互联系、互相影响的。

这种会产生相互影响的随机事件,也叫“非独立事件”。而原本互相独立的事件,当你发现它们之间有联系时,对事件概率的估计和决策方式都会发生很大的改变。

换个角度来看,我女儿有没有什么对付我的办法呢?如果恰好学习了这一节的内容,她就会知道,最简单的办法就是打破自己出拳的规律,让每次出拳的结果不再有联系。这样,她每次出拳的结果又是独立事件了,我就拿她没办法了。当然,我希望她不要那么快想到这个办法。

事件的独立性本质上是一个数学概念

判断一个事件的独立性看起来挺简单的,但是在现实生活中,我们真能这么轻松地辨别吗?事实上,这是非常困难的。

给你讲一件真实发生的事。2013年,英国德比郡一个叫约翰的人在超市买了一小盒鸡蛋,共6个。磕开第1个,约翰惊喜地发现这是一个双黄蛋。这是他有生以来第一次碰到双黄蛋。接着他又磕开了第2个,又是双黄蛋。更神奇的是,约翰接下来又连续磕开了3个,都是双黄蛋。他欣喜若狂,一不小心把最后一个鸡蛋摔在了地上。见证奇迹的时刻到了,这还是一个双黄蛋。

约翰一下买到6个双黄蛋的奇闻,被媒体争相报道。英国一家机构的数据显示:母鸡平均每下1000个鸡蛋,才会出现1个双黄蛋。也就是说,一个鸡蛋是双黄蛋的概率是。那么,一盒6个鸡蛋都是双黄蛋的概率是多少呢?

如果假设盒子里这个鸡蛋是双黄蛋和那个鸡蛋是双黄蛋是完全独立的事件,两者毫无关系,那么,连续6个都是双黄蛋的概率,就是每个鸡蛋是双黄蛋的概率的乘积,也就是的6次方,也就是10-18。

这个数值意味着什么呢?假如你每秒能磕开6个鸡蛋,现在让你以这个速度磕,要多长的时间才能保证在某一秒里6个鸡蛋都是双黄蛋的情况至少出现一次呢?答案是大约317亿年。要知道,宇宙从大爆炸到现在也就是138亿年左右,317亿年这个时间比宇宙年龄的两倍还要多!

6个鸡蛋都是双黄蛋,这得是多么罕见的事情啊。那约翰是不是史上第一个如此幸运的人呢?还真不是。因为就在此事发生的3年前,在英国另一个地方,还发生过一次几乎一模一样的事情。

按说,理论计算不应该和事实有如此大的差别。这不禁让我们困惑,问题出在哪儿呢?会不会是计算有问题?

还记得这种计算方式的前提吗?就是我们一开始的那个假设——同一个盒子里,这个鸡蛋是双黄蛋和另一个鸡蛋是双黄蛋是独立事件。也许这个假设是错的。

首先就有专家提出质疑,母鸡下双黄蛋的概率受自身年龄影响。越年轻的母鸡,下双黄蛋的概率越大。一只刚开始下蛋的母鸡,下双黄蛋的概率要远远高于。而在现代化的农场里,母鸡是分批次养殖的。同一批母鸡,会在相同的时间长大,然后开始下蛋。所以,如果恰好买到一批年轻母鸡下的蛋,出现双黄蛋的概率就会大得多。

其次,我们都知道,鸡蛋大小不同,往往售价也不同。所以无论是工作人员,还是自动化机器,在分拣、包装鸡蛋时,往往都会区分大小,把大个儿的放在一个盒子里。这样,只要盒子里第一个放进去的鸡蛋是大个儿的,后面几个也放大个儿鸡蛋的概率就会大大增加。而双黄蛋普遍比一般鸡蛋大,在“芸芸众蛋”中十分显眼,所以被放到一个盒子里的概率就会大幅提升。

所以说,很多我们以为的独立事件,也许并不具备独立性。这个鸡蛋是双黄蛋和那个鸡蛋是双黄蛋,这样两个看起来毫不相关的事件,也因为鸡蛋的大小而有了千丝万缕的联系。

现在你明白了吧,独立事件,只是我们描述某些随机事件的数学模型罢了。一些随机事件符合这种数学模型,可能真的是因为它们之间没有关系,不会互相影响;也可能是因为它们之间虽然存在内在联系,但我们不知道;还有一种可能是,假设这些随机事件是相互独立的,可以简化我们对概率的计算。

但不管怎样,在现实生活中,判断随机事件是否独立时要格外小心。如果把互相影响的事件错判成了独立事件,就会得出离真相很远的答案。

回到最开始男女朋友用抛硬币来决定吃火锅还是吃沙拉的例子。如果男朋友抛了100次硬币都是正面,你觉得下一次是正面和反面的概率还都是 吗?当然不是!这时,你就不应该还假设两次抛硬币是互不影响的独立事件了,而是要检查那个硬币是不是有问题了。

本节思考题

现实生活中,你遇到过貌似是相互独立,其实是相互影响、相互联系的事件吗?

扫描二维码查看解析

1.4 概率度量:降水概率40%的真正含义是什么

前面讲过,概率论解决问题的核心思路是,把局部的随机性转化为整体上的确定性。而要实现这个转化,靠的是“概率”。当一件事的概率确定了,它在整体上发生的可能性就确定了。这一节,我们就来看看整体的确定性是如何建立的。换句话说,我们是如何度量概率的。

简单来说,常用的度量概率的方法有三种——定义法、频率法和迭代法。这三种方法是伴随着概率论的发展而逐步出现的。现在,定义法用得比较少,使用比较多的是频率法和迭代法。

定义法:对现实世界的合理简化

定义法是概率论这个学科中最早出现的度量概率的方法。顾名思义,定义法就是直接定义概率。定义法的基础逻辑是,某件事不同结果出现的可能性是相等的,没有任何一个结果比其他结果更有可能发生。

比如,定义法认为,抛硬币时正面朝上和反面朝上的概率相等,都是 ;一个标准的骰子,每个点数出现的概率也相等,都是 。这些概率,都是我们直接定义的。

现实生活中,我们也经常这样设定。比如,一道4选1的选择题,随便选一个,我们认为蒙对的概率是 。这里就有一个人为的设定,就是认为每个选项正确的概率都是一样的;再比如,我要去跑马拉松,要么会坚持到达终点,要么中途放弃。跑之前,我说跑完和放弃的可能性“一半对一半”,这也是一种等可能性的设定。

你可能会说,概率值怎么能直接定义呢?这不靠谱吧?现在看来,定义法确实有很多不靠谱的地方。这是因为在概率论这个学科刚刚起步时,我们对概率的认知存在局限。你可能听过“古典概率”这个说法,它就是这样一种等可能性的概率定义法。

不过我想说的是,定义法虽然简单、直接,但是在宏观尺度上,它是一种对现实世界的合理简化,所以还是有一定的科学性的。比如,我们用定义法确定抛硬币、掷骰子的概率,几百年了,还是挺准的。这些全是蒙对的吗?当然不是。事实上定义法的等概率假设,是以宏观世界的对称性这个大前提为基础的。

对称性是世界的普遍规律。雪花是对称的,花瓣是对称的,单摆小球的轨迹是对称的,行星运行的轨迹很多是对称的,甚至在微观粒子的运动和相互作用中,也会体现对称性。可以说,对称是自然最完美的展现。

一枚理想的硬币,在几何形状上是对称的,密度是均匀的。当硬币被抛起来的时候,作用于硬币上的力是对称的,重力、摩擦力、大气压力等都是对称的……所以我们当然就假设,硬币正反两面出现的概率也是对称的,各 。所以说,用定义法进行等概率假设是有一定的科学性的。

那我为什么又说定义法是合理的简化呢?前面说了,影响硬币在空中状态的因素太多了,包括硬币的密度、形状、出手的角度、空气的密度、当时的风向等,完全搞清楚各个因素的具体情况是非常困难的。但是一方面,这些因素的影响很小;另一方面,各个因素的影响又会互相抵消。所以我们就把这些因素全部忽略了,把硬币在空中的状态简化成没有其他因素影响的理想状态。这不就是一种合理的简化吗?

著名经济学家约翰·凯恩斯(John Keynes)在他的《概率论》(A Treatise on Probability)一书中,专门给这种定义法取了个名字,叫“无差别原理”。也就是说,如果没有充分的理由说明某件事的每个结果的概率,就给予每个结果相同的概率。在很长的一段时间里,这个原理一直被应用在科学、统计学、经济学、哲学和心理学等领域中。

频率法:依靠大量数据获得真相

定义法虽然简单、好用,但随着概率论要处理的事情越来越多,定义法逐渐应付不过来了。简单来说,很多事情的多个结果的概率并不相等。比如,一个人患肺癌的概率,一批产品的次品率,通过考试的概率……即便不知道精确数值到底是多少,我们也知道,假设概率“一半对一半”是很荒谬的。这时,定义法就失效了。

随着数学家对概率的研究不断深入,他们找到了第二种度量概率的方法——频率法。

频率法的基础逻辑是,只要数据量足够大,一个随机事件发生的频率就会无限接近它的概率。换句话说,虽然每次结果都是随机的,但随着这件事不断地被重复,只要重复的次数足够多,隐含的规律就会慢慢浮现出来。

拿掷骰子来说,如果现在有一个被动过手脚的骰子,它各个点数出现的概率肯定有很大差别。这时候如果我们想知道骰子各个点数出现的概率,就不能使用定义法了。怎么办呢?用频率法。我们可以反复掷骰子,比如掷1000次,如果点数6出现的次数达到了500次,就可以知道,点数6出现的概率大约是 。现实生活中的概率度量也是类似的。比如投篮命中的概率、患肺癌的概率等,只要找到足够多的数据,然后用投篮命中的次数除以总投篮的次数,用肺癌患者的数量除以样本的总人数来计算频率,就可以把频率值作为这件事发生的概率。

这种依靠大量数据获得真相的思路,是现代统计学的基础,被广泛地应用在各个学科之中。我们会在第3章对频率法进行更详细的介绍。

有了频率法,定义法是不是就完全没用、可以完全丢弃了呢?当然不是。在很多情况下,定义法虽然没法直接使用,但是它能够帮助我们判断概率值是否正确。还是上面掷骰子的例子。当我们用一个骰子反复掷了1000次后,点数6出现了500次,即点数6出现的概率大约是 。正常骰子的六个面虽然不是完全均匀的,但是各个面的差别并不是太大,用频率法得出的结果和定义法不会有很大的差别。但 这个值和用定义法得出的 差得实在太远了,所以我们就能做出推测——这个骰子极可能被动过手脚。

迭代法:用动态发展的眼光来看待问题

有频率法就行了吗?还不够。当我们用频率法解决生活中的概率问题时,会发现有些问题还是解决不了。

首先,有些事是没法去试验的。比如,美国说要在2050年登上火星,你觉得成功的概率有多大?这可没法反复做试验。再比如,你向某个女生表白,成功的概率有多大?总不能表白500次,记录一下成功的次数吧?

其次,很多事件的概率是不断变化的。比如费德勒和纳达尔的比赛,费德勒获胜的概率有多大?随着比赛的进行和场上局势的变化,这个概率也是不断变化的。

最后,很多事件的概率还与个体的差异有关。比如,同样一道4选1的选择题,不同人答对的概率是一样的吗?当然不是。有些人只能靠蒙,他答对的概率可能就是 ;而他隔壁桌的学霸,答对的概率可能是50%,甚至是100%。

类似的事件还有很多。或者是因为数据量不足,或者是因为概率本身在不断变化,或者是因为与个体密切相关,这些事件的概率都没有办法通过频率法来预测。于是,数学家很快就有了第三种概率度量的方式——迭代法。

迭代法的做法是,先利用手头少量的数据做推测,甚至是主观猜测一件事的概率,然后再通过收集来的新数据,不断调整概率的估算值。有了迭代法,以上没法度量的各种概率问题就都可以解决了。比如,虽然没法通过反复试验判断美国2050年登上火星的概率,但是我可以先给一个假设,比如就是定义法中的 吧。然后,我不断收集新的数据和证据,比如美国公开的登陆火星的计划的内容、核心技术的发展状况、美国国家航空航天局的经费变化、火星登陆的新闻报道等,来调整之前的预测概率值。

迭代法中最常用的一种方法是贝叶斯推理计算,我们会在第5章详细介绍。

三种概率度量方法的关系

讲完了概率度量的三种方法,你会发现,它们其实是从不同的视角来度量概率的——

定义法通过自然世界的对称性来定义概率;

频率法用随机事件发生的频率来计算概率;

迭代法则是从一种动态发展的、考虑个体差异的角度来度量概率。

通过对这三种方法的学习,你应该能看出来,跟所有的科学研究一样,人们对概率的研究也是不断深入的。

不过要提醒你的是,这三种方法的适用范围并不是泾渭分明的,它们经常会被融合在一起使用:频率法可以验证定义法的正确性;使用迭代法时,可以借助定义法或者频率法来获得最初的判断;频率法和迭代法又可以同时使用,相互验证。

打个比方,这三种方法就好比工具箱里的三把尺子,共同对概率进行度量。这也是概率论和很多学科不一样的地方:它不是新方法取代旧方法,而是一种方法为另一种方法提供其他维度的辅助。

举一个我们生活中常见的三种概率度量方法融合应用的例子:降水概率。

我们听天气预报时有时会听到,明天降水概率40%,这到底是什么意思呢?是有40%的地区会下雨?还是有40%的时间会下雨?又或者说,是10个预报员投票,6个说不下雨,4个说下雨,所以降水概率就是40%?都不是。事实上,降水概率的含义是,从历史上看,与明天条件相似的100天中,有40天会降雨。其中相似条件是指温度、湿度、气压等气象相关条件相似。这里用到的就是频率法,相同条件下下雨的频率,近似等于下雨的概率。

当然,还可以表达得更准确一些。按照美国国家气象局的定义,降水的含义是降雨达到0.01英寸,也就是大概0.25毫米,降水概率的计算公式为:

PoP=C×A,

PoP指的是降水概率;C是预报区域内任何一个位置降水的概率,也就是前面说的与明天条件相似的情况下,降水的可能性;A是降水区域在预报区域所占的百分比。我们用区域占比来定义一个整体区域的降水概率,用到的就是定义法。

打个比方,北京明天这种天气条件,历史数据表明下雨的可能性是50%,同时,如果下雨可能涉及北京市80%的区域,那么,整个北京市的天气预报,降水的概率就是50%×80%=40%。

如果你不时去看天气预报中的降水概率预报,就会发现,它是在变化的,比如从40%变化成50%。这是因为气象局会根据不断收集来的新的气象条件,调整预报的降水概率,这里用到的就是迭代法。我们都知道,时间越远,天气预报得越不准确,时间越近,预报得越准确,这就是气象人员在利用迭代法不断更新、调整预测的结果。

你看,对降水概率的预测,其实就是综合应用这三种概率度量方法而得到的结果。现实生活中,这样的应用还有很多,比如在语音识别、股票预测、药品有效性预测等领域,这样的应用也广泛存在。

概率度量追求精准的意义

要度量随机事件发生的可能性,概率是一种准确的数学描述方式。不同地区对降水概率的计算方式可能有些许差别,但有一点是统一的,那就是使用概率对可能性进行度量时,都会尽可能地追求精准描述。

你可能会问,这种对精准的追求有意义吗?在日常生活中也许没有意义,毕竟,我们其实很难分辨发生概率是30%的事件和40%的事件有什么区别,更进一步地,你能分辨80%和85%的两个事件的区别吗?人类是一个天生对概率数值不敏感的物种,很多人对数值根本不敏感,更不要说是概率数值了。在日常生活中,我们并不追求精准的概率度量的值,而是会使用5种模糊的概率度量的表述:·

小概率事件(不可能发生):概率小于1%;

·可能性不大的事件:概率为1%~45%;

·一半对一半的事件:概率约等于50%(45%~55%);

·可能性比较大的事件:概率为55%~90%;

·大概率事件(几乎肯定会发生):概率在90%以上。

对日常生活中的决策,这5种概率度量的表述就够用了。但很明显,你也能感觉到这种表述很模糊。比如,0.9%的概率属于不可能发生的事件,1%的概率却属于可能性不大的事件,但其实这两个概率值的差距很小。

但在专业领域中,精准的概率度量就非常重要了。最容易理解的就是赌场这种商业模式。赌场设定的庄家获胜的概率是52%,赌家获胜的概率是48%,通过精准的概率度量和设计,只需要一点点的概率差,从整体上来看,庄家就能一直获胜。现代基于深度学习的人工智能,也是基于大数据来做精准的概率度量,从而对猫和狗进行识别,对语音、语义进行判断,以及进行自动驾驶。

从本质上说,保险公司做的也是一种概率生意,通过精准计算出险的概率,来设计保险产品并对保险产品定价。

精准的概率度量还有一个非常重要,而很多人完全没有意识到的作用,那就是利用精准的概率度量和我们模糊的概率意识形成的概率差赚取利润。比如,航空意外险就是这样一款产品。在线旅游公司航空意外险的售价一般在30元左右,但从保险公司买来这个产品估计只要5毛钱。这是个暴利的生意,但是你会不会买呢?事实上很多人都会买,因为对百万分之一的概率和十万分之一的概率,个体根本感受不到差异,在我们看来,它们都是小概率事件。为极为罕见的小概率事件花30元投保,是我们可以接受的一件事。对于30元的价格,我们也无法评估它是贵了还是便宜了。而通过这种概率的认知差异赚取利润,是很多行业的盈利模式。

总的来说,在日常生活中,精准的概率度量对很多决策没有太大的作用,但概率区间的判断是基于精准概率度量而做出的;但在大量专业领域中,精准的概率度量几乎是这些领域商业模式的基础。

本节思考题

你能用身边的例子来说明,哪些情况下用定义法定义概率,哪些情况下使用频率法和迭代法定义概率吗?

扫描二维码查看解析

上一章 封面 书架 下一章