假设 \( \boldsymbol{x} \) 和 \( \boldsymbol{y} \) 是两个随机变量,那么贝叶斯规则(“Bayes' rule”)表达为:
\[ p(\boldsymbol{x}|\boldsymbol{y}) = \frac{p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})} {p(\boldsymbol{y})} \]
其中, \( p(\boldsymbol{x}|\boldsymbol{y}) \) 表示在事件 \( \boldsymbol{y} \)发生的情况下, \( \boldsymbol{x} \)发生的概率密度。
\( p(\boldsymbol{x}| \boldsymbol{y}) \) 也被称为后验概率(posterior), \( p(\boldsymbol{y}|\boldsymbol{x}) \)被称为似然(“likelihood”), \( p(\boldsymbol{x}) \)被称为先验概率(“prior”)。
【注意】只有在贝叶斯定理的框架下,才有先验概率、后验概率这两种概念,在概率论的另一个框架“频率统计”框架下,是没有的。为了提升沟通效率,不要在频率统计框架下中提先验概率或者后验概率这些概念,例如在讨论最大似然估计的时候。
在后面的 估计理论(Estimation Theory) 中,我们会提到, \( \boldsymbol{x} \)往往是需要估计的状态量, 似然 \( p(\boldsymbol{y}|\boldsymbol{x}) \)则是所谓的观测,而先验概率 \( p(\boldsymbol{x}) \)则表示我们通过其他途径已经知道的知识,能够提供一部分的关于 \( \boldsymbol{x} \)分布的信息。
我们现在来看分母,
\[ p(\boldsymbol{y}) = \int p(\boldsymbol{x},\boldsymbol{y}) d \boldsymbol{x} \]
这个过程反过来的话被称为边缘化(marginalization),即对多维随机变量的某些分量进行全积分,重新得到剩下的分量的概率分布。