高斯分布参数的最大似然估计

在统计学和机器学习中,估计概率分布的参数是非常重要的一环。高斯(正态)分布在连续数据建模中得到了广泛的应用。最大似然估计(MLE)是一种根据数据观测值来估计高斯分布均值和方差的方法。MLE 被广泛应用于许多领域,如模式识别、信号处理和金融建模。在本文中,我们将推导高斯参数的 MLE 公式,并介绍它们的性质。

如果连续随机变量 $X$ 的概率密度函数 (PDF) 如下所示,则它服从高斯分布:

> p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(x – \mu)^2}{2\sigma^2} \right)

其中:

  • $\mu$均值(分布的中心)。
  • $\sigma^2$方差(衡量数据离散程度的指标)。
  • exp(⋅) (指数函数):确保函数值保持为正。

给定一个数据集 $X = \{x1, x2, \dots, x_n\}$,我们的目标是使用 MLE 来估计 $\mu$ 和 $\sigma^2$。

似然函数与对数似然

下面我们将分步骤推导似然函数和对数似然。

步骤 1:定义似然函数

对于来自高斯分布的独立同分布 (i.i.d.) 样本,似然函数是各个概率密度函数 (PDF) 的乘积:

> L(\mu, \sigma^2) = \prod{i=1}^{n} p(xi | \mu, \sigma^2)

步骤 2:代入高斯 PDF:

由于每个 $x_i$ 都服从高斯分布,我们将 PDF 代入 似然函数 中:

> L(\mu, \sigma^2) = \prod{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp \left( -\frac{(xi – \mu)^2}{2\sigma^2} \right)

步骤 3:取对数似然

因为对数可以将乘积转换为求和:

\log L(\mu, \sigma^2) = \sum{i=1}^{n} \left[ -\frac{1}{2} \log (2\pi \sigma^2) – \frac{(xi – \mu)^2}{2\sigma^2} \right]

最终简化后的对数似然函数

> \log L(\mu, \sigma^2) = -\frac{n}{2} \log (2\pi \sigma^2) – \frac{1}{2\sigma^2} \sum{i=1}^{n} (xi – \mu)^2

(为了估计 $\mu$ 和 $\sigma^2$,我们需要最大化这个函数)。

其中:

  • 似然函数:表示在给定参数下观测数据出现的概率的函数。
  • 对数似然:似然函数的对数形式,它使得优化过程变得更加容易。
  • 独立同分布:一个常见的假设,即每个数据点都服从相同的概率分布且相互独立。

均值 ($\mu$) 的 MLE

为了找到 $\mu$ 的 MLE,我们要对对数似然函数关于 $\mu$ 求导

> \frac{\partial}{\partial \mu} \log L(\mu, \sigma^2) = \frac{1}{\sigma^2} \sum{i=1}^{n} (xi – \mu)

令导数为零:

\sum{i=1}^{n} (xi – \mu) = 0

求解 $\mu$:

\hat{\mu} = \frac{1}{n} \sum{i=1}^{n} xi

其中:

方差 ($\sigma^2$) 的 MLE

接下来,我们要对对数似然函数关于 $\sigma^2$ 求导

> \frac{\partial}{\partial \sigma^2} \log L(\mu, \sigma^2) = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum{i=1}^{n} (xi – \mu)^2

令导数为零:

\frac{n}{2\sigma^2} = \frac{1}{2\sigma^4} \sum{i=1}^{n} (xi – \mu)^2

求解 $\sigma^2$:

\hat{\sigma}^2 = \frac{1}{n} \sum{i=1}^{n} (xi – \mu)^2

其中:

  • $\hat{\sigma}^2$ (样本方差): 衡量数据点围绕均值的分散程度。

这就是样本方差,其分母为 $n$(而不是 $n – 1$,后者用于无偏估计)。

MLE 估计量的性质

  • 一致性:当 $n \to \infty$ 时,$\hat{\mu}$ 和 $\hat{\sigma}^2$ 会收敛于真实值 $\mu$ 和 $\sigma^2$。
  • 有效性:在无偏估计量中,MLE 估计量拥有最小的方差(渐近地)。
  • 偏差:$\hat{\mu}$ 是无偏的,但 $\hat{\sigma}^2$ 会有轻微偏差,因为它除以的是 $n$ 而不是 $n-1$。

为了获得方差的无偏估计,我们使用以下样本方差公式:

> s^2 = \frac{1}{n-1} \sum{i=1}^{n} (xi – \hat{\mu})^2

其中:

  • 偏差:估计量的期望值与真实参数值之间的差异。
  • 有效性:衡量…
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/38358.html
点赞
0.00 平均评分 (0% 分数) - 0