深入理解统计学中的集中趋势：从理论到Python实战应用

2026-02-04 13:36:53 0条评论 2次阅读 0人点赞

在处理数据分析、后端逻辑优化，甚至是在进行机器学习模型预处理时，我们经常面临一个基础但至关重要的问题：如何从海量的杂乱数据中提炼出一个具有代表性的“核心值”？这个核心值能够代表数据的“中心位置”，让我们对数据的整体分布有一个直观且快速的认知。这便是我们要探讨的——集中趋势的测量值。

简单来说，集中趋势是指一个统计指标，它试图用单一的数字来描述整个数据集的分布中心。你可以把它想象成是数据的“重心”。掌握这些测量方法，不仅能帮助我们更准确地描述数据，更是后续进行高级统计分析的基石。

在这篇文章中，我们将深入探讨最常用的三种集中趋势测量方法——平均数、中位数 和众数。我们不仅会解析它们的数学定义，还会通过实际的 Python 代码示例，展示如何在真实项目场景中计算和应用它们。让我们开始这场从数学理论到代码实现的探索之旅吧。

> 核心概念：数据的“中心”并不是唯一的，它取决于数据的分布形态和分析目的。选择正确的测量指标是数据洞察的第一步。

!Central Tendency

1. 平均数：数据的平衡点

当我们提到“平均”时，大多数人首先想到的就是平均数。在统计学中，平均数是一个广义的概念，但在日常应用中，它通常特指算术平均数。当然，根据数据特性的不同，我们还可能会遇到几何平均数和调和平均数。

!mean平均数示意图

1.1 算术平均数

这是最常见的一种平均值。如果我们把数据集看作是一个物理天平，算术平均数就是那个让天平保持绝对平衡的支点。

#### 数学定义

对于未分组数据（即原始数据列表），算术平均数 (\bar{x}) 定义为所有观测值 (x_i) 的总和除以观测值的总个数 N。

> \bold{\bar{x} = \dfrac{\sum x_i}{N}}

> 通俗解释：平均数 = 所有观测值之和 ÷ 观测值总数

#### 代码实战：计算平均数

让我们通过 Python 来实现这一过程。虽然我们可以手动求和再除以数量，但为了代码的健壮性和可读性，我们通常会使用 Python 内置的 INLINECODE0b4e52a6 库或者数据分析的神器 INLINECODEdee990a4。

示例场景：假设我们是一名后端工程师，正在监控最近 5 次数据库查询的响应时间（毫秒）：27, 11, 17, 19, 21。我们想知道系统的平均响应时间。

import statistics

# 1. 定义数据：数据库响应时间（毫秒）
response_times = [27, 11, 17, 19, 21]

# 2. 计算算术平均数
mean_time = statistics.mean(response_times)

print(f"观测值: {response_times}")
print(f"平均响应时间: {mean_time} ms")

# 验证计算过程：
# (27 + 11 + 17 + 19 + 21) / 5 = 95 / 5 = 19
assert mean_time == 19.0, "计算结果验证失败"

代码解析：

在这段代码中，我们首先引入了 INLINECODE0b4d64ed 模块，这是 Python 标准库的一部分，专门用于处理统计计算。我们定义了一个包含响应时间的列表。通过调用 INLINECODE90df91ed 函数，Python 内部自动完成了求和与除法的步骤。这种写法比手动编写 sum(data) / len(data) 更加语义化，且能够处理更复杂的数据类型。

#### 性能优化与大数据处理

如果你在处理数百万级别的数据流（例如实时日志分析），直接将所有数据加载到内存中计算平均数可能会导致内存溢出（OOM）。在这种情况下，我们需要采用“增量计算”的思路。

优化后的算法思路：维护一个 INLINECODEda4bd713 和一个 INLINECODE940022c4 变量。每来一条新数据，就更新这两个变量。这样，内存占用始终是常数级别的 O(1)。

class OnlineMeanCalculator:
    """
    用于流式数据的平均数计算器，避免内存溢出。
    """
    def __init__(self):
        self._count = 0
        self._total = 0.0

    def update(self, new_value):
        """添加新观测值"""
        self._total += new_value
        self._count += 1

    def get_mean(self):
        """获取当前的平均数"""
        if self._count == 0:
            return 0.0
        return self._total / self._count

# 模拟实时数据流
stream_data = [27, 11, 17, 19, 21] 
calculator = OnlineMeanCalculator()

for data in stream_data:
    calculator.update(data)
    print(f"添加数据 {data}, 当前平均值: {calculator.get_mean():.2f}")

1.2 分组数据的平均数

在现实业务中，我们往往拿不到原始的明细数据，拿到的是汇总后的“频数分布表”。例如，电商网站可能只告诉我们“有5个人买了4件商品，10个人买了6件商品”，而不是给出一长串的购买记录。

#### 数学定义

对于分组数据，平均数 (\bar{x}) 的计算公式调整为：观测值 (xi) 与其对应频率 (fi) 的乘积之和，除以所有频率 (f_i) 的总和。

> \bold{\bar{x} = \dfrac{\sum fi xi}{\sum f_i}}

数学示例：

假设我们有如下销售数据频数表：

商品数

:—

用户数

10计算过程：

> \bar{x} = (4×5 + 6×10 + 15×8 + 10×7 + 9×10) ÷ (5 + 10 + 8 + 7 + 10)

> \Rightarrow \bar{x} = (20 + 60 + 120 + 70 + 90) ÷ 40

> \Rightarrow \bar{x} = 360 ÷ 40

> \Rightarrow \bar{x} = 9

#### 代码实现：处理分组数据

让我们用 Python 来复现这一业务逻辑。我们会使用 pandas 库，因为它在处理结构化表格数据时非常高效。

import pandas as pd

# 1. 构建频数分布 DataFrame
data = {
    ‘items_sold‘: [4, 6, 15, 10, 9],
    ‘user_count‘: [5, 10, 8, 7, 10]
}
df = pd.DataFrame(data)

# 2. 计算加权总和
# 公式应用：总和 = sum(观测值 * 频率)
total_items_sold = (df[‘items_sold‘] * df[‘user_count‘]).sum()
total_users = df[‘user_count‘].sum()

# 3. 计算最终的平均数
weighted_mean = total_items_sold / total_users

print(f"总交易额: {total_items_sold}")
print(f"总用户数: {total_users}")
print(f"加权平均销售数: {weighted_mean}")

# 验证结果
assert weighted_mean == 9.0

开发者提示：在处理分组数据时，最常见的错误是直接对 items_sold 列求平均。这是错误的，因为它忽略了每一项出现的概率（权重）。使用上述的加权平均算法才能反映真实的业务情况。

1.3 进阶：几何平均数与调和平均数

除了算术平均数，作为技术人员的我们还应该了解另外两种特殊情况下的平均值。

#### 几何平均数

适用场景：当你处理比率、增长率或百分比变化的数据时，算术平均数可能会产生误导，这时应该使用几何平均数。比如计算过去几年的平均复合增长率（CAGR）。
公式：

> \bold{\text{G.M.} = \sqrt[n]{x1\cdot x2\cdot x3\cdot \ldots \cdot xn}}

import statistics

# 场景：某应用过去三年的用户增长率分别为 10%, 20%, 30%
# 注意：计算时要使用 1.1, 1.2, 1.3 而不是 10, 20, 30
growth_rates = [1.10, 1.20, 1.30]

# 使用 statistics.geometric_mean (Python 3.8+)
avg_growth = statistics.geometric_mean(growth_rates)

print(f"几何平均增长率因子: {avg_growth:.4f}")
print(f"年平均增长率: {(avg_growth - 1) * 100:.2f}%")

# 对比算术平均数：算术平均数往往会高估增长率
arith_mean = sum(growth_rates) / len(growth_rates)
print(f"算术平均因子 (偏高): {arith_mean:.4f}")

#### 调和平均数

适用场景：当数据涉及到速率、速度或倒数关系时使用。例如，计算在相同距离下，以不同速度行驶的平均速度。
公式：

> \bold{\text{H. M. } = \frac{n }{\sum (1/x_i)}}

import statistics

# 场景：你以 30km/h 的速度去上班，又以 60km/h 的速度原路返回。
# 你的平均速度是多少？(不是 45!)
speeds = [30, 60]

# 调和平均数适用于计算固定距离下的平均速率
harmonic_avg_speed = statistics.harmonic_mean(speeds)

print(f"平均速度: {harmonic_avg_speed} km/h")
# 结果应为 40。因为你在慢速上花的时间比快速上多，所以平均值会被拉低。

2. 算术平均数的性质与陷阱

在开发中使用平均数作为指标时，我们必须了解它的数学特性，否则很容易掉入陷阱。

核心性质

偏差之和为零：所有观测值与平均数的差（偏差）之和为零。

\bold{\sum{(x_i – \bar{x})} = 0}

这意味着正负偏差完全相互抵消。

对线性变换的敏感性：如果我们将每个数据点都乘以一个常数 \(a\) 并加上常数 \(b\)，那么新的平均数也仅仅是原平均数乘以 \(a\) 加上 \(b\)。

\bold{\text{New Mean} = a \cdot \text{Old Mean} + b}

这在数据归一化处理中非常有用。

data = [10, 20, 30, 40]
mean_original = statistics.mean(data)

# 对数据进行线性转换: y = 2x + 5
transformed_data = [x * 2 + 5 for x in data]
mean_transformed = statistics.mean(transformed_data)

# 验证性质
assert mean_transformed == (2 * mean_original) + 5
print(f"原平均数: {mean_original}")
print(f"转换后平均数: {mean_transformed}")

常见陷阱：异常值

平均数最大的弱点就是它对异常值极其敏感。

想象一下，你在一家初创公司，大家的工资都很平均。突然，马斯克加入了你们团队，他的年薪是 1 亿。此时，计算出的“平均工资”会瞬间飙升，但这根本不能反映其他员工的真实收入水平。

解决方案：当数据分布不对称或存在极端值时，应该优先考虑中位数，或者在计算前进行数据清洗（去除异常值）。

import statistics

salaries = [3000, 3200, 3100, 2900, 10000000] # 最后一项是 CEO 的薪资

# 算术平均数被拉高
mean_sal = statistics.mean(salaries)
print(f"平均工资 (误导性高): {mean_sal:.2f}")

# 中位数更能反映真实情况
median_sal = statistics.median(salaries)
print(f"工资中位数 (真实): {median_sal}")

3. 总结与最佳实践

在今天的这篇文章中，我们一起走过了统计学中最基础的“集中趋势”测量方法。从最简单的算术平均数，到处理特定场景的几何与调和平均数，再到处理分组数据的加权平均，我们不仅重温了公式，更重要的是，我们探讨了如何将这些数学概念转化为 robust（健壮）的 Python 代码。

作为开发者，请记住以下几点：

不要盲目使用平均值：在进行数据分析之前，先查看数据的分布情况。如果数据中有明显的“离群点”，请使用中位数。

n* 选择正确的平均类型：处理速度用调和平均，处理增长率用几何平均，处理一般数值用算术平均。

n* 注意大数据场景：对于超大规模数据集，考虑使用流式算法计算平均值，以节省内存资源。

希望这篇文章能帮助你在未来的项目中，不仅能写出更高效的代码，还能从数据中挖掘出更有意义的洞察。

实用后续步骤

如果你想继续深入这方面的知识，建议你尝试以下实践：

动手尝试：使用 pandas 分析一个真实的公开数据集（例如 Kaggle 上的房价数据），计算并对比不同特征的均值和中位数。
探索分布：学习“标准差”和“方差”，了解除了看数据的“中心”，如何描述数据的“波动范围”。

祝你在数据探索的道路上越走越远！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客