在统计学和机器学习中,估计概率分布的参数是非常重要的一环。高斯(正态)分布在连续数据建模中得到了广泛的应用。最大似然估计(MLE)是一种根据数据观测值来估计高斯分布均值和方差的方法。MLE 被广泛应用于许多领域,如模式识别、信号处理和金融建模。在本文中,我们将推导高斯参数的 MLE 公式,并介绍它们的性质。
如果连续随机变量 $X$ 的概率密度函数 (PDF) 如下所示,则它服从高斯分布:
> p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x – \mu)^2}{2\sigma^2} \right)
其中:
给定一个数据集 $X = \{x1, x2, \dots, x_n\}$,我们的目标是使用 MLE 来估计 $\mu$ 和 $\sigma^2$。
似然函数与对数似然
下面我们将分步骤推导似然函数和对数似然。
步骤 1:定义似然函数
对于来自高斯分布的独立同分布 (i.i.d.) 样本,似然函数是各个概率密度函数 (PDF) 的乘积:
> L(\mu, \sigma^2) = \prod{i=1}^{n} p(xi | \mu, \sigma^2)
步骤 2:代入高斯 PDF:
由于每个 $x_i$ 都服从高斯分布,我们将 PDF 代入 似然函数 中:
> L(\mu, \sigma^2) = \prod{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(xi – \mu)^2}{2\sigma^2} \right)
步骤 3:取对数似然
因为对数可以将乘积转换为求和:
\log L(\mu, \sigma^2) = \sum{i=1}^{n} \left[ -\frac{1}{2} \log (2\pi \sigma^2) – \frac{(xi – \mu)^2}{2\sigma^2} \right]
最终简化后的对数似然函数
> \log L(\mu, \sigma^2) = -\frac{n}{2} \log (2\pi \sigma^2) – \frac{1}{2\sigma^2} \sum{i=1}^{n} (xi – \mu)^2
(为了估计 $\mu$ 和 $\sigma^2$,我们需要最大化这个函数)。
其中:
- 似然函数:表示在给定参数下观测数据出现的概率的函数。
- 对数似然:似然函数的对数形式,它使得优化过程变得更加容易。
- 独立同分布:一个常见的假设,即每个数据点都服从相同的概率分布且相互独立。
均值 ($\mu$) 的 MLE
为了找到 $\mu$ 的 MLE,我们要对对数似然函数关于 $\mu$ 求导:
> \frac{\partial}{\partial \mu} \log L(\mu, \sigma^2) = \frac{1}{\sigma^2} \sum{i=1}^{n} (xi – \mu)
令导数为零:
\sum{i=1}^{n} (xi – \mu) = 0
求解 $\mu$:
\hat{\mu} = \frac{1}{n} \sum{i=1}^{n} xi
其中:
方差 ($\sigma^2$) 的 MLE
接下来,我们要对对数似然函数关于 $\sigma^2$ 求导:
> \frac{\partial}{\partial \sigma^2} \log L(\mu, \sigma^2) = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum{i=1}^{n} (xi – \mu)^2
令导数为零:
\frac{n}{2\sigma^2} = \frac{1}{2\sigma^4} \sum{i=1}^{n} (xi – \mu)^2
求解 $\sigma^2$:
\hat{\sigma}^2 = \frac{1}{n} \sum{i=1}^{n} (xi – \mu)^2
其中:
- $\hat{\sigma}^2$ (样本方差): 衡量数据点围绕均值的分散程度。
这就是样本方差,其分母为 $n$(而不是 $n – 1$,后者用于无偏估计)。
MLE 估计量的性质
- 一致性:当 $n \to \infty$ 时,$\hat{\mu}$ 和 $\hat{\sigma}^2$ 会收敛于真实值 $\mu$ 和 $\sigma^2$。
- 有效性:在无偏估计量中,MLE 估计量拥有最小的方差(渐近地)。
- 偏差:$\hat{\mu}$ 是无偏的,但 $\hat{\sigma}^2$ 会有轻微偏差,因为它除以的是 $n$ 而不是 $n-1$。
为了获得方差的无偏估计,我们使用以下样本方差公式:
> s^2 = \frac{1}{n-1} \sum{i=1}^{n} (xi – \hat{\mu})^2
其中:
- 偏差:估计量的期望值与真实参数值之间的差异。
- 有效性:衡量…