如何在 R 语言中高效执行 McNemar 检验：从入门到精通

2026-02-09 20:23:03 0条评论 2次阅读 0人点赞

你是否曾经需要在统计分析中比较两组相关样本的分类结果？比如，在测试一种新药的效果时，同一组患者在治疗前后的反应是否有显著差异？或者，当你在比较两种不同算法对同一组数据的分类表现时，如何确定哪一种算法真正更优秀？在这些场景下，传统的卡方检验往往不再适用，因为数据不再是独立的，而是“配对”的。这时，McNemar 检验 就是我们手中最锋利的武器。

在这篇文章中，我们将深入探讨如何在 R 语言中执行 McNemar 检验。我们不仅要学习基础语法，还要通过实战案例来理解其背后的统计逻辑。无论你是数据分析师、研究人员，还是只是对 R 语言感兴趣的开发者，这篇文章都将帮助你掌握这一强大的统计工具。

什么是 McNemar 检验？

简单来说，McNemar 检验是一种用于分析配对分类数据的非参数统计方法。它专门用于检验两个相关样本（如同一组受试者在两个不同时间点的测量结果）在二分类变量上的分布是否存在显著差异。

想象一下，你正在做一个“前后对比”的研究：

治疗前：患者是否有某种症状（有/无）。
治疗后：患者是否还有该症状（有/无）。

由于是同一批人，治疗前后的数据是相互关联的。普通的卡方检验假设样本是独立的，如果在这里使用它，结果将是错误的。McNemar 检验通过关注那些“状态发生改变”的观测值（即从“有”变“无”或从“无”变“有”），来准确地评估差异的显著性。

核心概念：2×2 列联表

在 R 语言中执行 McNemar 检验之前，理解数据结构至关重要。我们的数据通常组织成一个 2×2 的列联表。假设我们有行（Method B）和列（Method A），表格结构通常如下所示：

Method A: 成功

Method A: 失败 :—

:—:

:—: Method B: 成功

a (一致成功)

b (B胜A负) Method B: 失败

c (A胜B负)

d (一致失败)

McNemar 检验的核心在于比较单元格 b 和 c。如果方法 A 和方法 B 没有区别，那么 b 和 c 的数量应该大致相等。如果它们差异很大，检验就会捕捉到这一点。

准备工作：R 语言环境

R 语言为我们提供了一个非常方便的内置函数 mcnemar.test()，我们不需要安装额外的第三方包即可开始工作。让我们来看看它的语法结构。

#### 语法解析

> mcnemar.test(x, y = NULL, correct = TRUE)

x: 这是一个必需参数。通常是一个二维的列联表（矩阵形式），包含配对观测值的计数。
INLINECODE9d6d306c: 这是一个可选参数。只有当 INLINECODEbad0c9f5 是一个因子对象时才使用。如果 INLINECODE011f269e 已经是矩阵，INLINECODEd1a534fe 会被忽略。
INLINECODEb731d708: 这是一个逻辑值，默认为 INLINECODEf31f0255。

* TRUE: 应用连续性校正（Yates 校正）。这在样本量较小（通常指 b + c < 25）时非常有用，可以防止 I 类错误（假阳性）。

* FALSE: 不应用校正，计算标准的 McNemar 统计量。

实战演练 1：基础教学效果评估

让我们通过第一个例子来看看具体的代码实现。假设我们是一名教育分析师，想比较两种教学方法对学生考试通过率的影响。我们有一组数据，记录了学生在分别接受“方法 A”和“方法 B”教学后的通过情况。

#### 第一步：构建数据矩阵

在 R 中，我们可以使用 INLINECODE68cc4d43 函数来手动构建这个 2×2 表格。注意 INLINECODEc03a9094 参数的使用，它能让我们清晰地标记行和列的含义，这在解读结果时非常有帮助。

# 创建一个 2x2 矩阵来表示列联表
# 数据结构：
# 行：方法 B 的结果
# 列：方法 A 的结果
# 数据填充顺序：先填列，再填行
# 30 (A过B过), 12 (A过B挂), 20 (A挂B过), 25 (A挂B挂)
data <- matrix(c(30, 12, 20, 25), nrow = 2,
               dimnames = list("After Method B" = c("Passed", "Failed"),
                               "After Method A" = c("Passed", "Failed")))

# 显示列联表以便我们确认数据无误
print("列联表预览:")
print(data)

输出结果：

[1] "列联表预览:"
              After Method A
After Method B Passed Failed
        Passed     30     20
        Failed     12     25

观察这个表格：

对角线上的 30 和 25 是“一致性”对子（两人结果相同），McNemar 检验主要忽略这些数据。
非对角线上的 20（A挂B过）和 12（A过B挂）是“不一致性”对子，这是检验的关键。20 对 12，看起来方法 B 稍微好一点？让我们用统计说话。

#### 第二步：执行检验

我们将分别进行带校正和不带校正的检验，以展示两者的区别。

# 执行带连续性校正的 McNemar 检验 (推荐用于样本较小的情况)
result_with_correction <- mcnemar.test(data)
print("McNemar's Test (带连续性校正):")
print(result_with_correction)

# 执行不带连续性校正的 McNemar 检验
result_without_correction <- mcnemar.test(data, correct = FALSE)
print("McNemar's Test (不带连续性校正):")
print(result_without_correction)

输出结果：

[1] "McNemar‘s Test (带连续性校正):"

	McNemar‘s Chi-squared test with continuity correction

data:  data
McNemar‘s chi-squared = 1.5312, df = 1, p-value = 0.2159

[1] "McNemar‘s Test (不带连续性校正):"

	McNemar‘s Chi-squared test

data:  data
McNemar‘s chi-squared = 2, df = 1, p-value = 0.1573

#### 结果解读

这里有一个非常关键的细节：P 值。

在带校正的检验中，p-value = 0.2159。
在不带校正的检验中，p-value = 0.1573。

无论哪个结果，它们都远大于常见的显著性水平 0.05。这意味着，虽然从数字上看方法 B 的通过人数（20 + 30）似乎比方法 A（12 + 30）多，但这种差异在统计学上并不显著。我们不能拒绝原假设，只能认为这两种教学方法的效果在统计层面上是“一样的”。

实战演练 2：医疗数据的显著性分析

让我们换一个场景。这次我们在分析医疗数据，比较两种治疗方案 A 和 B 对患者症状缓解的效果。在这个例子中，数据可能会呈现出显著差异。

# 创建医疗数据的列联表
# 70 (都缓解), 30 (B未A缓), 60 (B缓A未), 40 (都未)
# 注意：这里的不一致对子数量（30 和 60）比上一个例子大得多
data_medical <- matrix(c(70, 30, 60, 40), nrow = 2,
               dimnames = list("After Treatment B" = c("Relieved", "Not Relieved"),
                               "After Treatment A" = c("Relieved", "Not Relieved")))

# 查看数据
print("医疗数据列联表:")
print(data_medical)

# 执行检验
result_medical <- mcnemar.test(data_medical)
print("医疗数据 McNemar 检验结果:")
print(result_medical)

输出结果：

[1] "医疗数据列联表:"
                 After Treatment A
After Treatment B Relieved Not Relieved
     Relieved           70           60
     Not Relieved       30           40

[1] "医疗数据 McNemar 检验结果:"

	McNemar‘s Chi-squared test with continuity correction

data:  data_medical
McNemar‘s chi-squared = 9.3444, df = 1, p-value = 0.002237

#### 深入解读

在这个例子中，p-value = 0.002237。这个值小于 0.01 甚至小于 0.05。这是一个非常强的信号！

这意味着我们可以拒绝原假设。统计结果表明，治疗方案 A 和治疗方案 B 在症状缓解率上存在显著差异。具体看数据，治疗方案 A 的“未缓解”但在 B 下“缓解”的人数（60）明显高于 A 缓解 B 未缓解的人数（30），这在统计学上支持了 B 方案可能更优（或者数据偏向 B）的结论。

实战演练 3：处理原始数据而非矩阵

在现实工作中，我们通常拿到的不是现成的列联表，而是原始数据框。这时候，我们需要先用 table() 函数将原始数据转换为 McNemar 检验所需的格式。

假设我们有一个 CSV 文件或者数据框，其中每一行代表一个患者，两列分别代表两种诊断测试的结果。

# 模拟创建一个原始数据框
set.seed(123) # 设置随机种子以保证结果可复现
patient_id <- 1:100
# 模拟 Test1 的结果：约 50% 阳性
test1_result <- sample(c("Positive", "Negative"), 100, replace = TRUE)
# 模拟 Test2 的结果，使其与 Test1 有一定相关性但不完全一致
# 为了演示方便，我们手动构造一些相关性
test2_result <- test1_result
# 随机改变 30 个样本的结果，制造不一致
change_indices <- sample(1:100, 30)
test2_result[change_indices] <- ifelse(test2_result[change_indices] == "Positive", "Negative", "Positive")

# 组合成数据框
df_raw <- data.frame(patient_id, test1_result, test2_result)

# 查看前几行数据
head(df_raw)

# 关键步骤：将原始数据转换为列联表
# 我们必须告诉 R 哪些变量是配对的
contingency_table_from_raw <- table(df_raw$test2_result, df_raw$test1_result)

print("从原始数据生成的列联表:")
print(contingency_table_from_raw)

mcnemar_result_raw <- mcnemar.test(contingency_table_from_raw)
print(mcnemar_result_raw)

这种方法更加实用。利用 table() 函数，我们可以自动计算交叉表，避免了手动统计的繁琐和错误。

常见问题与最佳实践

在使用 McNemar 检验时，有几个陷阱是你需要留意的：

样本量的影响：如果不一致对子的总数（b + c）非常小（例如小于 25），连续性校正通常是必须的。如果样本量极小，甚至可以考虑使用精确的二项检验而不是卡方近似。
数据配对的性质：请务必确认你的数据确实是配对的。如果是两组完全不同的人（比如实验组的 50 人 vs 对照组的另外 50 人），你应该使用普通的卡方检验，而不是 McNemar 检验。
大于 2×2 的表格：McNemar 检验标准版仅适用于 2×2 表格。如果你有超过两个类别或超过两个时间点，你需要使用 McNemar-Bowker 检验或 Kappa 统计量等扩展方法。
零频数问题：如果 b 或 c 中有一个是 0（例如所有人都是从 A 变到 B，没人从 B 变到 A），标准的卡方计算可能会出问题。R 通常会给出警告，这时你可以直接使用精确检验。

性能优化建议

在处理大数据集（数百万行）时，使用 INLINECODE4c7f0ad5 函数生成列联表可能比手动遍历行计数要快得多，因为 INLINECODE7fecaf17 是底层优化的 C 代码。此外，确保你的分类变量是 factor 类型，这样可以减少内存占用并提高计算速度。

总结

通过这篇文章，我们从零开始，系统地学习了如何在 R 语言中执行 McNemar 检验。我们涵盖了：

核心概念：理解配对数据的特殊性以及 McNemar 检验与普通卡方检验的区别。
R 语言实现：掌握了 INLINECODE33acf2b2 函数的参数设置，特别是 INLINECODEf3fa75c4 参数的意义。
数据处理：学会了如何手动构建列联表，以及如何从原始数据框自动生成列联表。
结果解读：通过 P 值来判断实际场景中（如教学、医疗）的显著性差异。

当你下次遇到“A/B 测试结果是否真的有差异”或“治疗前后是否有实质变化”的问题时，别忘了使用 McNemar 检验来为你提供科学的统计依据。统计分析的乐趣在于透过数字看到真相，而 R 语言正是实现这一目标的绝佳伙伴。希望你能将今天学到的知识应用到你的实际项目中！

如果你想进一步练习，可以尝试修改我们代码中的数值，观察 P 值是如何随着一致性对子数量变化而变化的。动手尝试是掌握编程技能的最佳捷径。

祝你数据分析愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何在 R 语言中高效执行 McNemar 检验：从入门到精通

什么是 McNemar 检验？

核心概念：2×2 列联表

准备工作：R 语言环境

实战演练 1：基础教学效果评估

实战演练 2：医疗数据的显著性分析

实战演练 3：处理原始数据而非矩阵

常见问题与最佳实践

性能优化建议

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年