深入理解弗里德曼检验：原理、Python实现与实战应用

2026-02-08 07:47:26 0条评论 3次阅读 0人点赞

作为一名数据分析师或研究人员，你经常会遇到这样的情况：你需要比较同一组主体在不同条件下的表现，但数据并不符合正态分布的假设。这时，强大的方差分析（ANOVA）可能不再适用，而我们手中的“秘密武器”就是非参数检验中的弗里德曼检验。

在这篇文章中，我们将深入探讨弗里德曼检验的每一个细节。我们将从它解决的核心问题出发，带你理解数学公式背后的直觉，并重点介绍如何利用 Python 进行高效的代码实现。我们将看到，这种方法不仅理论严谨，而且在处理评分系统、药物测试或算法对比等实际场景中，表现出非凡的实用价值。让我们开始这段探索之旅吧。

弗里德曼检验的核心概念

#### 什么是弗里德曼检验？

弗里德曼检验是一种用于检测多次测试尝试中不同处理之间是否存在差异的非参数统计检验。简单来说，当我们拥有两个以上的相关组或重复测量数据，且数据是以排名或有序形式呈现时，它是我们的首选方法。

你可以把它理解为“重复测量方差分析的非参数替代方案”。当我们的数据不满足正态性和方差齐性的严格假设时，我们依然可以使用弗里德曼检验来获得可靠的结果。它并不直接分析原始数值，而是分析数据的排名，这让它对异常值具有很强的鲁棒性。

#### 适用场景与要素

我们通常在以下情况使用它：

在多种条件下测量的一组对象：我们关注的是单个组在三种或更多条件下（例如：不同的药物、不同的算法、不同的时间点）的测量变化。
数据类型：因变量可以是序数（如评分 1-5）、区间或比率数据，但前提是这些数据在同一组内是相关的（配对的）。

假设检验：我们要证明什么？

在执行检验之前，我们需要明确我们要挑战的假设。弗里德曼检验基于以下假设：

随机样本：样本是从总体中随机抽取的。
非正态分布：数据不需要服从正态分布（这正是我们使用它的原因之一）。

#### 零假设与备择假设

零假设（H0）：给定的测量条件之间没有显著差异。换句话说，所有条件的概率分布是相同的，它们的中位数是相等的。

> 数学表达：H0 : M1 = M2 = M3 = ….. Mk （M 为中位数）

备择假设（H1）：至少有两个条件彼此存在显著差异。

弗里德曼检验的统计原理

#### 统计公式解析

为了计算弗里德曼检验的统计量 $F_R$，我们需要对每一行的数据进行组内排名，然后计算每个条件的秩和。公式如下：

$$ F{R}=\frac{12}{n k(k+1)} \sum R{i}^{2}-3 n(k+1) $$

其中：

$n$：参与者或观察对象（个体）的数量。
$k$：条件或测量（组或样本）的数量。
$R_i$：第 $i$ 个组或条件的秩和。

这个公式的核心思想在于：如果各组的处理效果没有差异，那么每个条件下的秩和 $R_i$ 应该大致相等。如果某些条件的秩和特别大或特别小，说明它们之间存在显著差异。

#### 决策规则

我们可以通过两种方式来做出决定：

临界值法：计算出的 $F_R$ 值如果大于临界卡方值，则拒绝零假设。
P值法（更常用）：我们将计算出的 P 值与 Alpha（显著性水平，通常为 0.05）进行比较。

* 如果 $P \le Alpha$，拒绝零假设（说明组间存在显著差异）。

* 如果 $P > Alpha$，接受零假设。

代码实战与深度解析

让我们通过具体的 Python 代码示例来掌握这一工具。我们将使用 INLINECODEbe26be37 和 INLINECODE6ade2c1b 等库，这些是数据科学领域的标准配置。

#### 示例 1：基础实现与手动验证

假设我们有一个药物测试的数据集。我们测试了 7 个人对 3 种不同药物（A, B, C）的反应时间。我们需要判断这三种药物的效果是否不同。

数据准备

首先，让我们构建数据并理解“排名”的过程。

import numpy as np
import pandas as pd
from scipy.stats import friedmanchisquare

# 示例数据：7个人对3种药物的反应时间
data = np.array([
    [1.24, 1.50, 1.62],  # 个体 1
    [1.71, 1.85, 2.05],  # 个体 2
    [1.37, 2.12, 1.68],  # 个体 3
    [2.53, 1.87, 2.62],  # 个体 4
    [1.23, 1.34, 1.51],  # 个体 5
    [1.94, 2.33, 2.86],  # 个体 6
    [1.72, 1.43, 2.86]   # 个体 7
])

df = pd.DataFrame(data, columns=[‘药物 A‘, ‘药物 B‘, ‘药物 C‘])
print("原始数据：")
print(df)

# 弗里德曼检验通常是对每一行（每个个体）进行排名
def calculate_ranks_manual(df):
    """手动计算排名以理解原理"""
    ranked_data = df.rank(axis=1, method=‘average‘)
    return ranked_data

ranked_df = calculate_ranks_manual(df)
print("
每个个体在各药物下的排名（Row-wise Ranking）：")
print(ranked_df)

# 计算每列的总秩和
rank_sums = ranked_df.sum(axis=0)
print("
各药物的总秩和：")
print(rank_sums)

在这段代码中，我们不仅加载了数据，还手动执行了 rank(axis=1) 操作。这是理解弗里德曼检验的关键：比较是在个体内部进行的。对于第一个人，药物 A 反应最快（排名第1），药物 C 最慢（排名第3）。这消除了个体差异（比如有些人的新陈代谢本来就快）带来的干扰。

执行检验

接下来，我们使用 scipy 直接计算统计量和 P 值。

# 执行弗里德曼检验
# 注意：scipy 的输入格式是每个条件作为一个独立的数组
stat, p_value = friedmanchisquare(data[:, 0], data[:, 1], data[:, 2])

print(f"
Friedman Test 统计量: {stat:.4f}")
print(f"P 值: {p_value:.4f}")

alpha = 0.05
if p_value <= alpha:
    print("结论: 拒绝零假设。至少有两种药物的效果存在显著差异。")
else:
    print("结论: 无法拒绝零假设。药物效果之间没有显著差异。")

#### 示例 2：处理真实场景中的数据不平衡

在实际工作中，数据往往不是完美的 NumPy 数组，而是包含缺失值的 Pandas DataFrame。虽然标准的弗里德曼检验要求完整数据，但我们可以通过预处理来优化代码的健壮性。

import pandas as pd
import numpy as np

# 模拟一个包含缺失值的数据集
real_world_data = {
    ‘Algo_A‘: [0.85, 0.90, np.nan, 0.88, 0.92],
    ‘Algo_B‘: [0.82, 0.85, 0.87, 0.86, 0.89],
    ‘Algo_C‘: [0.78, 0.80, 0.82, 0.79, 0.81]
}
df_rw = pd.DataFrame(real_world_data)

print("处理前的真实数据（含缺失值）：")
print(df_rw)

# 实用见解：
# 对于小样本缺失，我们可以删除包含 NaN 的行
# 这是因为弗里德曼检验依赖于成对（或成组）的比较
df_clean = df_rw.dropna()
print(f"
清洗后的数据量（行数）: {len(df_clean)}")

if len(df_clean) >= 3: # 至少需要3个样本才能进行有意义的组间排名对比
    stat, p = friedmanchisquare(df_clean[‘Algo_A‘], df_clean[‘Algo_B‘], df_clean[‘Algo_C‘])
    print(f"清洗后的 Friedman Test P 值: {p:.4f}")
else:
    print("有效样本不足，无法执行检验。")

实用见解：在处理算法评估数据时，我们经常遇到某些算法在某些数据集上跑崩了的情况。直接删除这些行虽然简单，但会损失信息。在更高级的应用中，你可能需要考虑使用插值法填充缺失值，或者选择对缺失值更稳健的替代模型，但在标准的弗里德曼检验中，剔除缺失样本是最安全的做法。

#### 示例 3：自动化分析函数

为了提升工作效率，我们可以编写一个封装函数，自动处理 DataFrame 输入并输出完整的报告。

from scipy.stats import friedmanchisquare

def run_friedman_test(dataframe, alpha=0.05):
    """
    自动化执行弗里德曼检验并打印报告
    
    参数:
    dataframe (pd.DataFrame): 每一列代表一个条件，每一行代表一个观察对象
    alpha (float): 显著性水平，默认 0.05
    """
    try:
        # 将 DataFrame 的列解包作为参数传递
        result = friedmanchisquare(*[dataframe[col] for col in dataframe.columns])
        
        stat, p_val = result
        
        print("=== 弗里德曼检验报告 ===")
        print(f"参与对象数量: {len(dataframe)}")
        print(f"测试条件数量: {len(dataframe.columns)}")
        print(f"检验统计量: {stat:.5f}")
        print(f"P 值: {p_val:.5f}")
        
        if p_val <= alpha:
            print(f"结果: 显著 (P  {alpha})")
            print("建议: 各条件之间可能没有统计学上的差异。")
            
        return result
        
    except ValueError as e:
        print(f"执行错误: {e}")
        print("提示: 请检查数据是否包含空值或列数是否足够。")
        return None

# 使用我们之前的完整数据
print("
运行自动化分析：")
run_friedman_test(df[[‘药物 A‘, ‘药物 B‘, ‘药物 C‘]])

进阶分析：事后检验

这是一个非常关键的步骤，很多初学者容易忽略。如果弗里德曼检验的结果拒绝了零假设（P < 0.05），这只能告诉我们这几组数据之间“有”差异，但无法告诉我们具体是哪两组之间有差异。是 A 和 B？还是 A 和 C？

为了找出具体差异，我们需要进行事后分析。

#### Nemenyi 检验与 Bonferroni 校正

常用的方法包括成对 Wilcoxon 符号秩检验，或者专门针对弗里德曼设计的 Nemenyi 检验。这里我们展示如何使用 Wilcoxon 检验配合 Bonferroni 校正，这是一种控制 I 类错误（假阳性）的严谨方法。

> 为什么需要校正？ 如果我们要做 3 次比较（A vs B, B vs C, A vs C），每次犯错的概率是 0.05，那么总体犯错的概率就会大大增加。Bonferroni 校正通过将显著性水平除以比较次数（例如 $0.05 / 3 \approx 0.0167$）来抵消这种风险。

from scipy.stats import wilcoxon
from itertools import combinations

def post_hoc_wilcoxon(df, alpha=0.05):
    """
    执行带 Bonferroni 校正的事后 Wilcoxon 检验
    """
    cols = df.columns
    k = len(cols)
    # 计算需要比较的对数: k * (k - 1) / 2
    num_comparisons = k * (k - 1) / 2
    
    # 调整 Alpha
    adjusted_alpha = alpha / num_comparisons
    
    print(f"
=== 事后检验 ===")
    print(f"比较对数: {num_comparisons}")
    print(f"原始 Alpha: {alpha}")
    print(f"Bonferroni 校正后 Alpha: {adjusted_alpha:.4f}")
    print("-" * 30)
    
    # 获取所有可能的列组合
    pairs = list(combinations(cols, 2))
    
    for pair in pairs:
        group1 = df[pair[0]]
        group2 = df[pair[1]]
        
        # 执行 Wilcoxon 符号秩检验
        stat, p = wilcoxon(group1, group2)
        
        is_significant = "显著" if p <= adjusted_alpha else "不显著"
        print(f"{pair[0]} vs {pair[1]}: P={p:.4f} ({is_significant})")

# 假设主检验显著，运行事后检验
# 注意：这里使用原始数据演示流程，实际中仅在主检验显著时运行
post_hoc_wilcoxon(df[['药物 A', '药物 B', '药物 C']])

性能优化与最佳实践

在处理大规模数据集时，我们需要注意以下性能和逻辑问题：

避免循环：在手动计算排名或秩和时，尽量使用 Pandas 或 NumPy 的向量化操作，而不是 Python 的 for 循环。向量化运算在底层由 C 语言实现，速度快得多。

优化前*：使用 for row in data.iterrows()。
优化后*：使用 df.rank(axis=1).sum()。

数据类型优化：如果数据量非常大（数百万行），确保数据类型尽可能小（例如使用 INLINECODEf1e57ded 而不是 INLINECODEdc0481fd），可以显著减少内存消耗。

绘图可视化：虽然本文重点在代码，但在实际报告中，建议配合箱线图或密度图来直观展示各组的分布差异，这比单纯的数字更具说服力。

常见错误与解决方案

错误 1：数据并非配对样本。

现象*：你收集了 30 个学生使用方法 A 的成绩，和另外 30 个学生使用方法 B 的成绩。
后果*：这是独立样本，应该使用 Kruskal-Wallis 检验，而不是弗里德曼检验。
解决*：确保每一行数据来自同一个主体（如同一个学生的前后测成绩）。

错误 2：忽略了平局。

现象*：数据中有大量相同的数值。
后果*：大多数统计库会自动处理平局（通常使用平均排名），但在手动实现公式时如果不考虑平局校正因子，结果会有偏差。
解决*：尽量使用成熟的库如 scipy，它们内部已经处理了这种情况。

总结

弗里德曼检验是我们在面对非正态、重复测量数据时的强大工具。通过本文的探索，我们不仅理解了它如何通过“组内排名”来消除个体差异，还掌握了从基础计算、代码实现到事后检验分析的全流程。

关键要点回顾：

它是非参数检验，适用于有序数据或非正态分布的连续数据。
它比较的是三个或更多相关的组。
如果 P 值显著，一定要进行事后检验（如带 Bonferroni 校正的 Wilcoxon 检验）来确定具体的差异来源。

希望这篇文章能帮助你在实际的数据分析项目中更自信地应用这一技术。下次当你面对一组复杂的评分数据时，不妨试试弗里德曼检验！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客