费舍尔信息是统计学中的一个基本概念,它用于衡量样本数据提供了多少关于概率分布中未知参数的信息。它量化了估计参数的精确度——费舍尔信息越高,意味着我们可以更准确地估计该参数。
其正式定义如下:
> θ = \mathbb{E} \left[ \left( \frac{\partial}{\partial \theta} \log f(X; \theta) \right)^2 \right]
其中:
- f(X; \Theta) 是随机变量 X 的概率密度函数(PDF),由 \Theta 参数化。
- 期望 \mathbb{E} 是针对 X 取的。
- 期望内部的项是对数似然函数导数的平方。
或者,利用二阶导数,费舍尔信息也可以表示为:
> I(\theta) = – \mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \log f(X; \theta) \right]
这种替代形式源于对数似然函数一阶导数的期望值为零这一性质。
费舍尔信息矩阵 (FIM)
对于多参数系统,费舍尔信息推广为费舍尔信息矩阵(FIM),其定义为:
> I(\theta){ij} = \mathbb{E} \left[ \frac{\partial}{\partial \thetai} \log f(X; \theta) \frac{\partial}{\partial \theta_j} \log f(X; \theta) \right]
其中:
- I(\Theta) 是一个 n \times n 的对称矩阵,对应 n 维参数向量 \Theta。
- 对角线元素代表各个参数的费舍尔信息。
- 非对角线元素代表参数之间的相关性。
费舍尔信息的性质
- 非负性:对于所有的 \Theta,都有 I(\Theta) \ge 0。
- 可加性: 如果数据点 X1, X2, ….., Xn 是相互独立的,那么总的费舍尔信息等于单个费舍尔信息的总和。
- 凸性: 费舍尔信息函数在概率分布上是凸的。
克拉美-罗界及其启示
费舍尔信息最重要的应用之一是克拉美-罗界(CRB),它为任何无偏估计量 \hat{\theta} 的方差提供了一个下界:
> \text{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)}
对于多参数情况:
> \text{Cov}(\hat{\theta}) \ge I(\theta)^{-1}
这个结果意味着费舍尔信息能帮助我们确定估计量的效率——费舍尔信息越高,方差越低,估计的准确性越好。
机器学习中的费舍尔信息
费舍尔信息广泛应用于:
计算正态分布的费舍尔信息
Python
CODEBLOCK_7b483be0
Output
Fisher Information for Normal Distribution: 0.25
多元高斯分布的费舍尔信息矩阵
Python
CODEBLOCK_88d425c6
Output
Fisher Information Matrix:
[[ 0.57142857 -0.28571429]
[-0.28571429 1.14285714]]
在现实问题中的应用
- 信号处理: 估计时间序列数据中的频率。
- 计量经济学: 改善经济模型中的参数估计。
- 医学成像: 增强 MRI 和 CT 扫描中的图像重建