源内容(英文)
在数据分析中,我们经常需要一次性运行多个假设检验,例如在医学研究中检查数千个基因,以确定哪些与疾病有关。但是,我们进行的检验越多,仅仅因为偶然性而得到看似重要的结果的几率就越高。为了减少这些假阳性,统计学家会使用校正方法。Holm-Bonferroni 方法就是其中之一,它因能控制这些错误而不会过于严苛,从而比传统的 Bonferroni 方法更为流行。
工作原理
假设我们进行了 m 次假设检验,并得到了 m 个 p 值。
- 将 p 值按升序排列:
> p{(1)} \leq p{(2)} \leq \cdots \leq p_{(m)}
- 为排序后的 p 值分配等级。设 p_{(i)} 为第 i 个最小的 p 值。
- 将每个 p 值与其调整后的阈值进行比较:
> p_{(i)} \leq \frac{\alpha}{m – i + 1}
其中 α\alphaα 是我们所需的显著性水平(例如 0.05)。
- 拒绝从第一个 p_{(1)} 开始直到最后一个满足条件的假设的所有原假设。
一旦有一个 p 值不满足该条件,就停止拒绝后续的假设,即使后面的 p 值满足阈值要求。
示例- 使用 Holm-Bonferroni 方法在 0.05 的 alpha 水平下检验以下四个假设及其对应的 p 值:
p 值
—
0.01
0.04
0.03
0.005## 使用 Holm-Bonferroni 方法的分步解决方案
步骤 1: 将 p 值按升序排列,并匹配对应的假设
p 值
—
0.005
0.01
0.03
0.04步骤 2: 计算调整后的显著性水平
p 值
—
0.005
0.01
0.03
0.04
步骤 3: 将 p 值与对应的 α 进行比较
p 值
—
0.005
0.01
0.03
0.04
Holm-Bonferroni 与 Bonferroni 的对比
方法策略
检验效能
—
—
固定阈值
低
逐步,自适应
较高- Bonferroni 仅当 p 值 < α / m 时拒绝
- Holm-Bonferroni 在遍历每个 p 值时会动态调整阈值
因此,Holm-Bonferroni 的效能至少与 Bonferroni 相当,通常表现更好。
何时使用 Holm-Bonferroni
- 当控制家族误差率(FWER)非常重要时
- 当我们进行的假设检验数量适中时
- 当我们需要一种比 Bonferroni 更强但仍然简单易懂且易于应用的方法时
Holm-Bonferroni 的优势
- 比 Bonferroni 更有效(更不容易漏掉真实的阳性结果)
- 易于实施,只需排序和比较 p 值
- 以可靠的方式控制 FWER
- 适用于独立检验以及部分相关的检验
局限性
- 仍然较为保守,尤其是在进行大量检验时
- 不控制错误发现率(FDR),为此应使用 Benjamini-Hochberg 方法
- 在极高维度的检验中无法挽回效能的损失