如何使用 Python 执行 Dunn 检验：全方位指南与实战代码

2026-01-31 20:48:21 0条评论 4次阅读 0人点赞

在 2026 年的今天，数据科学不再仅仅是关于算法的选择，更多的是关于工作流的智能化和决策的严谨性。在我们日常的数据分析工作中——无论是处理 A/B 测试结果，还是分析生物医学数据——我们经常会遇到这样的场景：通过方差分析（ANOVA）或 Kruskal-Wallis 检验发现各组数据之间存在显著差异。但这仅仅是揭开迷雾的第一步。真正让我们头疼，也是最能体现分析师价值的问题是：到底哪两组之间存在差异？

当我们面对不符合正态分布的数据，或者样本量差异较大的非参数数据时，传统的 Tukey HSD 检验可能不再适用，强行使用甚至会导致误导性的结论。这时，Dunn 检验（Dunn‘s Test） 就像一把精密的手术刀，帮助我们在多重比较中精准定位差异的来源，同时控制假阳性率。

在这篇文章中，我们将不仅仅停留在“如何调用函数”的层面。作为经验丰富的开发者，我们将深入探讨 Dunn 检验的原理、它背后的数学逻辑，以及如何利用 Python 的 scikit-posthocs 库与现代 AI 辅助编程范式（如 Cursor 或 Copilot）结合，构建一套鲁棒、可解释的分析流水线。无论你是刚入行的数据分析师，还是寻求优化的资深工程师，这篇文章都将为你提供从理论到生产级代码的完整实战指南。

深入理解 Dunn 检验与 Kruskal-Wallis 的关系

在深入 Dunn 检验之前，我们需要先理清它的“前序步骤”——Kruskal-Wallis 检验。理解这一步至关重要，因为 Dunn 检验通常是作为它的“事后检验”出现的，二者是一个有机的整体。

Kruskal-Wallis 检验是一种非参数统计方法，你可以把它看作是“单因素方差分析（ANOVA）”的非参数版本。在 2026 年的数据环境下，数据很少完美符合正态分布（例如用户行为数据、网络延迟分布等），这使得 Kruskal-Wallis 成为首选方法。当我们有以下情况时，它是最佳选择：

数据不符合正态分布：这是最常见场景，例如收入数据、反应时间数据往往呈现长尾分布。
组别超过两个：对比三组或更多独立组别的中位数。
数据是定序的：比如李克特量表（1-5分）的用户满意度数据。

它的局限性在于：Kruskal-Wallis 检验只能告诉我们“至少有一组与其他组不同”，也就是拒绝零假设（H0），但它无法具体指出是哪两组。这就是为什么我们需要 Dunn 检验作为下一步的“侦探工作”。

#### 为什么 Dunn 检验是 2026 年的最佳选择？

想象一下，如果你有三组数据（A, B, C），直接做两两独立的秩和检验（比如 Mann-Whitney U 检验）三次，虽然听起来很简单，但这会带来一个严重问题：多重比较问题。每次检验都会产生犯第一类错误（误报/假阳性）的风险。假设我们设定的显著性水平为 0.05，做三次检验，累积的错误率（FWER, Family-wise Error Rate）就会飙升到约 14%。

Dunn 检验通过以下机制优雅地解决了这个问题：

统一秩次：它复用 Kruskal-Wallis 检验过程中已经计算好的所有数据的统一排名。这保证了分析的一致性和统计效率。
P 值校正：它引入了校正方法（如 Bonferroni, Holm, Benjamini-Hochberg 等），将整体显著性水平分配到每一次成对比较中，从而有效控制累积的错误率。

环境准备与 AI 辅助开发策略

在 Python 生态中，执行 Dunn 检验最标准、最强大的库是 scikit-posthocs。这是一个专门用于事后检验的库，设计非常符合人体工程学。

在开始之前，请确保你的环境中已经安装了该库。在现代开发流程中，我们强烈建议使用虚拟环境管理依赖：

# 推荐使用 uv 或 poetry 进行现代项目管理，这里为了演示方便使用 pip
! pip install scikit-posthocs pandas numpy matplotlib seaborn scikit-learn

AI 辅助开发小贴士：在我们最近的项目中，我们发现使用像 Cursor 这样的 AI IDE 可以极大地加速数据探索的代码编写。你可以直接在编辑器中提示：“生成一个使用 scikit-posthocs 进行 Dunn 检验的模版代码，并包含 Bonferroni 校正和可视化部分。” AI 不仅能生成代码，还能帮你处理繁琐的数据清洗逻辑。

#### 关键函数解析：posthoc_dunn

这是我们要用到的核心函数。让我们先看看它的“说明书”，了解我们能控制哪些参数。在生产级代码中，参数的微调往往决定了结果的可靠性。

> 语法：

> scikit_posthocs.posthoc_dunn(a, val_col=None, group_col=None, p_adjust=‘bonferroni‘, sort=True)

> 关键参数深度解读：

> * a：数据输入。支持列表的列表或 Pandas DataFrame。在处理大规模数据时，DataFrame 是更高效的选择。

> * p_adjust：这是最关键的参数，直接影响了统计结论的严格程度。

> * ‘bonferroni‘：最保守。适合高风险决策场景（如医疗决策），极难犯假阳性错误，但可能因过于严格而漏掉真实差异。

> * ‘holm‘：（推荐） 降序逐步校正。通常比 Bonferroni 检验力更强，是大多数商业分析中的默认选择。

> * ‘fdr_bh‘：控制错误发现率（FDR）。适合基因组学或大规模特征筛选等探索性分析，允许少量假阳性以换取更高的发现率。

—

实战指南：从 Hello World 到生产级代码

我们将通过三个不同复杂度的场景来演示如何执行 Dunn 检验。请紧跟我们的代码，你会发现这比想象中要简单，但深度远超教程。

#### 场景一：经典鸢尾花数据集（结构化数据处理）

这是数据科学界的“Hello World”，但在 2026 年，我们更关注代码的可读性和可视化的美观度。

第一步：导入与加载

import pandas as pd
import scikit_posthocs as sp
from sklearn.datasets import load_iris
import seaborn as sns
import matplotlib.pyplot as plt

# 设置风格，现代可视化更注重简洁
sns.set_theme(style="whitegrid")

# 加载数据
iris = load_iris(as_frame=True)
df = iris.frame

# 为了演示，我们只关注花萼长度
df = df[[‘sepal length (cm)‘, ‘target‘]]

第二步：智能可视化（在跑统计之前先看数据）

作为一个专业的分析师，我们必须养成“先画图，后计算”的习惯。统计显著不代表业务显著，箱线图能告诉我们分布的重叠程度。

plt.figure(figsize=(10, 6))
# 使用 boxplot 展示分布，添加 swarmplot 叠加散点，展示数据密度
sns.boxplot(x=‘target‘, y=‘sepal length (cm)‘, data=df, palette="Pastel1")
sns.swarmplot(x=‘target‘, y=‘sepal length (cm)‘, data=df, color=".25", alpha=0.5)

plt.title(‘不同鸢尾花品种的花萼长度分布 (含散点叠加)‘, fontsize=14)
plt.xlabel(‘品种‘, fontsize=12)
plt.ylabel(‘花萼长度‘, fontsize=12)
plt.show()

第三步：执行 Dunn 检验与结果解读

# p_adjust=‘holm‘ 是我们的推荐选择，平衡了严格性和灵敏度
results = sp.posthoc_dunn(df, 
                         val_col=‘sepal length (cm)‘, 
                         group_col=‘target‘, 
                         p_adjust=‘holm‘)

print("
Dunn 检验 P 值矩阵 (Holm 校正):")
print(results)

# 简单的结果解读逻辑
# 我们可以编写一个简单的函数来高亮显示显著的细胞
def highlight_significant(val):
    color = ‘#ffcccc‘ if val < 0.05 else ''
    return f'background-color: {color}'

# 使用 Pandas Styler 让结果更直观（适合在 Notebook 中展示）
styled_results = results.style.applymap(highlight_significant)
styled_results

#### 场景二：处理非平衡列表数据（容错与边界情况）

在生产环境中，数据往往不那么整齐，可能存在缺失值或样本量差异巨大的情况。让我们看看如何处理这种“脏数据”。

import numpy as np

# 模拟三个非平衡组的数据
# Drug_A 效果一般，Drug_B 效果较差，Drug_C 效果最好
Drug_A = [45, 50, 52, 48, 60, 55, 58, 49, 51] # n=9
Drug_B = [30, 35, 32, 28, 40, 33]               # n=6 (样本较少)
Drug_C = [65, 70, 68, 75, 72, 80, 78, 74, 76, 79] # n=10

# 将数据组合成列表的列表
data_list = [Drug_A, Drug_B, Drug_C]

# 直接传入列表的列表
# 如果数据中有 NaN，posthoc_dunn 默认可能会报错或产生警告，需提前清洗
# 这里展示使用 Holm 校正
results_list = sp.posthoc_dunn(data_list, p_adjust=‘holm‘)

# 构建可读性强的 DataFrame
result_df = pd.DataFrame(results_list, 
                         index=[‘Drug A‘, ‘Drug B‘, ‘Drug C‘],
                         columns=[‘Drug A‘, ‘Drug B‘, ‘Drug C‘])

print("
药物效果对比 P 值矩阵：")
print(result_df.round(4)) # 保留4位小数

# 生产环境建议：编写断言检查结果有效性
assert result_df.loc[‘Drug A‘, ‘Drug B‘] > 0.05, "A和B应该没有显著差异"
assert result_df.loc[‘Drug A‘, ‘Drug C‘] < 0.05, "A和C应该有显著差异"
print("
自动化断言测试通过：结果符合预期。")

#### 场景三：从原始 CSV 到完整报告（端到端工程化）

这是最接近真实工作流的场景。我们不仅要算出 P 值，还要处理 CSV 读取中的潜在陷阱，并生成一份初步的结论。

import pandas as pd
import io

# 模拟一个真实的 CSV 文件内容（可能包含空格或格式问题）
csv_data = """
Team,Performance_Score
Alpha,85
Alpha,88
Alpha,90
Alpha,78
Alpha,92
Beta,75
Beta,80
Beta,72
Beta,68
Gamma,95
Gamma,98
Gamma,92
Gamma,96
Gamma,99
Gamma,100
"""

# 读取数据并进行严格的数据清洗
df_hr = pd.read_csv(io.StringIO(csv_data))

# 数据清洗：确保数值列是 float 类型，防止潜在的字符串比较错误
df_hr[‘Performance_Score‘] = pd.to_numeric(df_hr[‘Performance_Score‘], errors=‘coerce‘)

# 剔除缺失值（虽然这里没有，但这是生产环境代码的必备步骤）
df_hr = df_hr.dropna(subset=[‘Performance_Score‘, ‘Team‘])

print("数据清洗后概览：")
print(df_hr.groupby(‘Team‘)[‘Performance_Score‘].describe())

# 使用 Bonferroni 校正，因为涉及绩效考核，我们希望更严谨
results_adjusted = sp.posthoc_dunn(df_hr, 
                                  val_col=‘Performance_Score‘, 
                                  group_col=‘Team‘, 
                                  p_adjust=‘bonferroni‘)

print("
绩效考核团队差异分析 (Bonferroni 校正):")
print(results_adjusted)

# 简单的业务逻辑输出
print("
--- 分析结论 ---")
if results_adjusted.loc[‘Alpha‘, ‘Beta‘] > 0.05:
    print("- Alpha 和 Beta 团队绩效无显著差异。")
else:
    print(f"- Alpha 和 Beta 团队绩效存在显著差异 (P={results_adjusted.loc[‘Alpha‘, ‘Beta‘]:.4f})")

if results_adjusted.loc[‘Gamma‘, ‘Alpha‘] < 0.05:
    print(f"- Gamma 团队显著优于 Alpha 团队 (P={results_adjusted.loc['Gamma', 'Alpha']:.4f})")

进阶与性能：大规模数据的挑战

在 2026 年，随着数据量的爆炸式增长，我们可能会遇到数百万行数据的多重比较问题。

性能优化策略：

Dunn 检验的核心在于计算秩次。在 scikit-posthocs 中，对于非常大的数据集，计算全局秩次可能会消耗较多内存。

采样策略：如果是探索性分析，可以先进行分层采样，快速验证结果趋势。
并行计算：如果需要同时进行数千次类似的检验，可以结合 Python 的 INLINECODE56db45a6 或 INLINECODEc2373778 库并行处理不同的数据切片。
替代方案：当组数非常多（如 > 50 组），生成的 P 值矩阵会过于庞大且难以解释。此时，考虑先进行聚类分析，将相似的组合并，或者使用控制错误发现率（FDR）的方法（如 fdr_bh）来提高筛选效率。

总结与 2026 年展望

在这篇文章中，我们不仅仅是运行了一个 Python 函数。我们构建了一个从数据清洗、可视化探索、统计假设检验到业务解读的完整闭环。

作为开发者，请记住以下最佳实践：

永远不要跳过可视化：箱线图和小提琴图是你最好的朋友。
谨慎选择校正方法：INLINECODE6d95e1d9 是你的瑞士军刀，INLINECODE91279dfa 是你的盾牌。
代码的健壮性：在生产环境中，务必处理 NaN 和数据类型转换问题。
拥抱 AI 工具：让 AI 帮助你编写样板代码和解释晦涩的统计参数，但统计逻辑和业务判断必须由你自己把控。

Dunn 检验虽然只是一个统计学方法，但它完美诠释了数据科学的核心：在不确定性中寻找确定性，同时保持对错误的敬畏。希望这篇指南能帮助你在下一次数据分析任务中，自信地处理多重比较问题！

下一步行动建议：

不要让这些知识只停留在纸上。尝试将你手头的一个旧数据集拿出来，先用 Shapiro-Wilk test 测试一下正态性。如果数据不正态，那就放弃 ANOVA，尝试用我们今天学到的 Kruskal-Wallis + Dunn 检验流程来重新分析吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何使用 Python 执行 Dunn 检验：全方位指南与实战代码

深入理解 Dunn 检验与 Kruskal-Wallis 的关系

环境准备与 AI 辅助开发策略

实战指南：从 Hello World 到生产级代码

进阶与性能：大规模数据的挑战

总结与 2026 年展望

相关文章美国1G带宽/1T流量高速vps $17.99/年

如何使用 Python 执行 Dunn 检验：全方位指南与实战代码

深入理解 Dunn 检验与 Kruskal-Wallis 的关系

环境准备与 AI 辅助开发策略

实战指南：从 Hello World 到 生产级代码

进阶与性能：大规模数据的挑战

总结与 2026 年展望

相关文章美国1G带宽/1T流量高速vps $17.99/年

实战指南：从 Hello World 到生产级代码