概率分布 用来描述随机变量或者一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量时离散的还是连续的。

离散型变量的分布用概率质量函数来描述。我们通常用大写字母 P 来表示概率质量函数。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。条件 A 的概率用 $P(A)$ 来表示,概率为 1 表示条件 A 是确定的,概率为 0 表示条件 A 是不可能发生的。有时候我们也会先定义一个随机变量,然后用 ~ 符号来说明该变量遵循现有的分布:x ~ P(A)。

连续型变量的分布用概率密度函数来描述。我们通常用小写字母 p 来表示概率密度函数。概率密度函数 p(x) 一般不会直接给出特定状态下的概率,相对的,它给出落在面积为 $ \delta x$ 的无限小的区域内的概率为 $p(x) \delta x$ 。我们可以通过对概率密度函数求积分来获取点集的真实概率质量。

在很多情况下,我们关注的是某个事件在给定其它事件发生时出现的概率。这种概率被称为条件概率。我们将在条件 A 下发生事件 B 的条件概率记位 $P(B|A)$,该条件概率可以用下面的公式计算:
$$
P(B|A) = \frac{P(B,A)}{P(A)}
$$
条件概率只在 $P(A) > 0$ 时有意义。其中 $P(B,A)$ 被称为联合概率分布,是一种多条件下的概率,表示 B 和 A 同时发生的概率。

任何多维随机变量的联合分布概率,都可以分解成只有一个变量的条件概率相乘的形式:
$$
P(x^{(1)}, ..., x^{(n)}) = P(x^{(1)}) \prod_{i=2}^n P(x^{(i)} | x^{(1)}, ..., x^{i-1})
$$
该规则被称为概率的链式法则或者乘法法则。常见的概率乘法如下:
$$
P(a,b,c) = P(a|b,c)P(b,c) \\ P(b,c) = P(b|c)P(c) \\ P(a,b,c) = p(a|b,c)P(b|c)P(c)
$$
代入到上面的式子,可以得到贝叶斯公式:
$$
P(B|A) = \frac{P(B,A)}{P(A)} = \frac{P(A|B)P(B)}{P(A)}
$$