深入理解四分位距（IQR）：从理论公式到Python实战应用

2026-02-02 03:09:03 0条评论 2次阅读 0人点赞

在数据分析的实战中，我们经常需要处理充满噪声和异常值的数据集。这时候，仅仅依靠平均值往往会误导我们的判断。你是否想过，如何才能更稳健地衡量数据的波动程度？今天，我们将一起深入探讨统计学中一个极其重要但常被低估的工具——四分位距。它不仅是描述性统计的核心概念，更是识别异常值的关键武器。

什么是四分位距？

我们可以将四分位距看作是数据“中间部分”的跨度。正如我们在四分位数的学习中所了解的，统计学通过三个切点将排序后的数据划分为四个等份。四分位距（IQR）计算的是数据集中间 50% 数据的离散程度，具体来说，它是第三四分位数（上四分位数 Q3）与第一四分位数（下四分位数 Q1）之间的差值。

为了更好地理解，我们先快速回顾一下这三个关键的切点：

第一四分位数 (Q1 / Lower Quartile): 这是一个位于排序数据集 25% 处的数值。你可以把它理解为“下半部分”数据的中位数，它切分了数据集的前半部分。
第二四分位数 (Q2): 这就是我们熟悉的中位数，位于数据的 50% 处，将数据完全对半切分。
第三四分位数 (Q3 / Upper Quartile): 位于数据集的 75% 处，切分了排序数据的后半部分。

四分位距通过关注 Q3 和 Q1 之间的距离，有效地忽略了数据集头部和尾部的极端值，因此它比极差更能稳定地反映数据的离散情况。

核心公式与数学原理

在开始写代码之前，让我们先明确一下背后的数学逻辑。计算四分位距的公式非常直观：

> IQR = Q3 – Q1

其中：

Q3 代表上四分位数
Q1 代表下四分位数

为了计算 Q1 和 Q3 的具体位置，我们通常使用以下公式来确定它们在排序序列中的位置：

> Q3 的位置 = ((3 × (n + 1)) / 4)th 项

> Q1 的位置 = ((n + 1) / 4)th 项

注意：这里的 n 是数据集的总项数。如果计算出的位置不是整数，我们通常需要在该位置两侧的数值之间进行插值（通常是取平均值）。

手动计算：IQR 的分步解析

在引入 Python 之前，让我们通过一个纯数学的例子来巩固理解。假设我们有一组乱序的数据，我们需要手动求出它的四分位距。

场景 1：基础整数项计算
问题： 找出数据集 [20, 10, 50, 40, 25, 70, 30] 的四分位距。
解决步骤：

排序： 首先，我们必须将数据按升序排列。

10, 20, 25, 30, 40, 50, 70

这里 n = 7。

计算 Q1 (下四分位数):

使用公式 Q1 = ((n+1)/4)th term

位置 = ((7+1)/4) = 2nd term (第 2 项)

查看排序后的列表，第 2 个数是 20。

所以，Q1 = 20。

计算 Q3 (上四分位数):

使用公式 Q3 = ((3×(n+1))/4)th term

位置 = ((3×8)/4) = 6th term (第 6 项)

查看排序后的列表，第 6 个数是 50。

所以，Q3 = 50。

计算 IQR:

IQR = Q3 - Q1 = 50 - 20 = 30。

结论：该数据集的四分位距为 30。
场景 2：处理小数位置的插值

当数据量 INLINECODE45d1b9de 导致 INLINECODEfcea21fb 不是整数时，情况会稍微复杂一点。让我们看下一个例子。

问题： 找出数据 [22, 12, 55, 45, 25, 75, 30, 26, 49] 的四分位距。
解决步骤：

排序： 12, 22, 25, 26, 30, 45, 49, 55, 75

这里 n = 9。

计算 Q1:

位置 = ((9+1)/4) = 2.5th term。

这意味着 Q1 位于第 2 项和第 3 项之间。

Q1 = (第 2 项 + 第 3 项) / 2 = (22 + 25) / 2 = 23.5。

计算 Q3:

位置 = ((3×(9+1))/4) = 7.5th term。

这意味着 Q3 位于第 7 项和第 8 项之间。

Q3 = (第 7 项 + 第 8 项) / 2 = (49 + 55) / 2 = 52。

计算 IQR:

IQR = 52 - 23.5 = 28.5。

结论：该数据集的四分位距为 28.5。

Python 实战：计算 IQR 的高效方法

作为开发者，我们当然不能每次都手动计算。Python 提供了多种方式来计算四分位距。最常用的方法是结合 INLINECODE618cf91b 和 INLINECODE84b2ee26 库，或者直接使用 Pandas。让我们来看看如何实现。

#### 方法 1：使用 NumPy 和 Scipy（推荐用于科学计算）

scipy.stats.iqr 是最直接的工具，它底层使用了 NumPy 的百分位函数。

import numpy as np
from scipy.stats import iqr

# 示例数据
data = [20, 10, 50, 40, 25, 70, 30]

# 计算 IQR
# 注意：Scipy 默认的线性插值方法可能略有不同，但通常结果一致
iqr_value = iqr(data, interpolation=‘midpoint‘)
print(f"数据集: {data}")
print(f"计算得到的 IQR (Scipy): {iqr_value}")

# 手动验证使用 NumPy
q1, q3 = np.percentile(data, [25, 75])
manual_iqr = q3 - q1
print(f"Q1: {q1}, Q3: {q3}")
print(f"计算得到的 IQR (NumPy): {manual_iqr}")

代码工作原理解析：

我们首先导入必要的库。
INLINECODE181f104a：这个函数直接返回四分位距。设置插值为 INLINECODEa6719fc1 可以让我们在很多情况下得到与我们手动计算一致的逻辑（虽然 NumPy 默认的线性插值更复杂，但在处理包含偶数个数据段时，midpoint 往往更符合直觉）。
我们也展示了如何使用 np.percentile 分别获取 25% 和 75% 的分位数，然后相减。这种方法给了我们更多的控制权。

#### 方法 2：使用 Pandas（推荐用于数据分析）

如果你正在处理 DataFrame 或 Series，Pandas 提供了非常便捷的方法。

import pandas as pd

# 创建一个 Series
df_series = pd.Series([22, 12, 55, 45, 25, 75, 30, 26, 49])

# 使用 quantile 方法计算 Q1 和 Q3
Q1 = df_series.quantile(0.25)
Q3 = df_series.quantile(0.75)
IQR = Q3 - Q1

print(f"--- Pandas 计算结果 ---")
print(f"Q1: {Q1}")
print(f"Q3: {Q3}")
print(f"IQR: {IQR}")

IQR 的实战应用：异常值检测

学会计算 IQR 只是第一步，理解它为什么重要才是关键。在数据清洗中，我们经常使用 IQR 来定义“正常”数据的范围。超出这个范围的数据点通常被视为异常值。

异常值检测公式：

下限: Q1 – 1.5 × IQR
上限: Q3 + 1.5 × IQR

任何小于下限或大于上限的数据值，都被认为是潜在的异常值。

让我们来看一个完整的实战代码示例，展示如何自动剔除异常值。

def remove_outliers(df, column):
    """
    使用 IQR 方法移除指定列中的异常值
    """
    # 1. 计算 Q1 (25%) 和 Q3 (75%)
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    
    # 2. 计算 IQR
    IQR = Q3 - Q1
    
    # 3. 定义过滤的上下界
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # 4. 返回过滤后的数据（只保留在范围内的数据）
    print(f"""
    --- {column} 的统计信息 ---
    Q1: {Q1}
    Q3: {Q3}
    IQR: {IQR}
    下限 (Lower Bound): {lower_bound}
    上限 (Upper Bound): {upper_bound}
    """)
    
    filtered_df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]
    return filtered_df

# 模拟一个包含工资异常值的场景
import pandas as pd
data = {'Employees': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
        'Salary': [5000, 5200, 4800, 5100, 150000, 5300]} # Eva 的工资明显是输入错误或异常

df = pd.DataFrame(data)

print("原始数据:")
print(df)

# 清洗数据
clean_df = remove_outliers(df, 'Salary')

print("
清洗后的数据 (无异常值):")
print(clean_df)

在这个例子中，你可以看到 INLINECODEdf416492 的薪资 INLINECODE5bbc5ac7 远远超出了上限，因此被成功识别并过滤掉了。这就是 IQR 在实际工程项目中最直接的价值。

常见错误与解决方案

在使用 IQR 时，你可能会遇到一些常见的陷阱，这里有一些实用建议：

插值方法的差异： 不同的库（Excel, Python, R）计算四分位数的方法略有不同（线性插值 vs 中点插值）。如果你发现 Python 算出的结果和 Excel 不一致，不要惊慌，检查一下 interpolation 参数即可。
小样本数据： IQR 依赖于数据分布。如果数据量非常少（比如少于 5 个），IQR 的意义可能不大，甚至容易产生误导。
不仅是数字： IQR 只能用于数值型数据。如果你需要分析分类数据的离散程度，你需要查看熵或基尼系数等其他指标。

总结与后续步骤

在这篇文章中，我们深入探讨了四分位距（IQR）的概念、数学推导以及 Python 实现。我们不仅学会了如何手动计算 Q1 和 Q3，还编写了能够自动处理异常值的实用函数。

关键要点：

IQR 衡量了数据中间 50% 的范围，对极端值不敏感。
公式： IQR = Q3 – Q1。
应用： 它是检测异常值最稳健的统计学方法之一（通过 1.5 倍 IQR 规则）。

下一步建议：

试着将上述异常值检测代码应用到你自己的 Kaggle 数据集或工作中。
探索一下 箱线图，这是可视化 IQR、Q1、Q3 以及异常值最直观的图表工具。
了解标准差与 IQR 的区别：标准差假设数据服从正态分布，而 IQR 是非参数的，适用于任何分布。

希望这篇指南能帮助你更好地理解数据的波动性！如果你在处理数据时还有疑问，欢迎随时交流。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客