Python 核心算法：不依赖第三方库，手把手实现平均值、中位数与众数计算

2026-02-04 07:27:48 0条评论 66次阅读 0人点赞

在这篇文章中，我们将深入探讨 Python 数据分析的基石。虽然我们在日常工作中习惯于直接使用 NumPy 或 Pandas 等强大的第三方库来处理统计数据，但理解这些底层算法的实现原理对于每一位开发者来说都至关重要。这不仅有助于我们通过编程面试的考验，更能帮助我们在不依赖外部环境的受限场景下（如某些嵌入式系统、算法竞赛或单纯的教学环境）解决问题。

随着我们步入 2026 年，虽然 AI 辅助编程已经普及，但编写健壮、高效且无依赖的原生代码依然是区分普通脚本和工程级应用的关键。今天，我们将完全使用原生 Python，从零开始构建计算平均数、中位数和众数的函数。让我们一起来探索这些数学概念是如何转化为简洁、高效的代码逻辑的，并融入现代开发的最佳实践。

1. 平均数：从基础公式到生产级代码

#### 概念解析

平均数，通常指算术平均数，是我们最熟悉的统计指标。它的定义非常直观：一组数据的总和除以这组数据的个数。在 Python 中，虽然我们可以编写循环来累加求和，但利用内置的 INLINECODEf14544a3 和 INLINECODE3e6a7708 函数不仅代码更简洁，而且执行效率通常更高，因为它们是底层 C 实现的。

#### 代码实现

让我们定义一个数字列表，并计算它的平均值。这是一个非常标准的实现方式，适用于整数或浮点数列表。

# Python 程序：计算列表元素的平均数

def calculate_mean(data):
    """计算列表的算术平均数，带有异常处理"""
    if not data:
        return None  # 处理空列表，避免除以零
    return sum(data) / len(data)

# 定义包含数字的列表用于计算平均数
n_num = [1, 2, 3, 4, 5] 
mean = calculate_mean(n_num)

if mean is not None:
    print(f"平均数是: {mean}")
else:
    print("列表为空，无法计算平均值。")

输出结果：

平均数是: 3.0

#### 2026 开发视角：健壮性与类型安全

在我们最近的一个项目中，我们意识到仅仅计算数值是不够的。生产环境中的数据往往是“脏”的。作为经验丰富的开发者，我们需要考虑数据清洗和类型安全。以下是结合了现代 Python 类型提示（Type Hinting）的进阶实现，这是我们推荐的工程化写法：

from typing import List, Union, Optional
import logging

# 配置日志记录，这在现代应用监控中至关重要
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

def calculate_mean_robust(data: List[Union[int, float]]) -> Optional[float]:
    """
    计算平均数的工程级实现。
    特点：
    1. 包含类型提示，便于 IDE 静态检查。
    2. 自动过滤非数值数据。
    3. 异常捕获与日志记录。
    """
    if not data:
        logger.warning("尝试计算空列表的平均值。")
        return None
    
    try:
        # 数据清洗：过滤掉非数字类型（如 None, 字符串）
        clean_data = [x for x in data if isinstance(x, (int, float))]
        
        if not clean_data:
            logger.error("清洗后的列表为空，无法计算。")
            return None
            
        return sum(clean_data) / len(clean_data)
    except TypeError as e:
        logger.error(f"计算平均值时发生类型错误: {e}")
        return None

# 模拟真实世界的脏数据
raw_data = [10, 20, "NaN", None, 30, 40, 50]
print(f"清洗后的平均数: {calculate_mean_robust(raw_data)}")

这种防御性编程的思维，是我们在 2026 年构建高可用性服务的基础。

—

2. 中位数：处理偶数个数据的边缘情况

#### 概念解析

中位数代表了一组数据“中间位置”的数值。与平均数不同，中位数对极端值（异常值）不敏感。例如，在统计工资时，如果有一个亿万富翁混入了一群普通人中，平均工资会急剧上升，但中位数可能保持不变，更能反映真实情况。

计算中位数的逻辑取决于数据数量的奇偶性：

奇数个元素：排序后，最中间的那个数就是中位数。
偶数个元素：排序后，中间有两个数，中位数是这两个数的平均值。

#### 代码实现

为了找到中位数，我们首先必须对列表进行排序。Python 提供了内置的 INLINECODE7d83425e 方法，它会直接在原列表上进行排序。为了保护原始数据，我们通常会使用 INLINECODEc8e23758 创建副本。

# Python 程序：计算列表元素的中位数

def calculate_median(data):
    """
    计算中位数。
    时间复杂度：O(N log N) 主要由排序决定。
    """
    if not data:
        return None
        
    sorted_data = sorted(data) # 使用 sorted() 避免修改原列表
    n = len(sorted_data)
    
    # 找到中间位置的索引
    mid_index = n // 2
    
    # 判断元素个数是奇数还是偶数
    if n % 2 == 1: 
        # 奇数：直接取中间值
        return sorted_data[mid_index]
    else: 
        # 偶数：取中间两个数的平均值
        return (sorted_data[mid_index - 1] + sorted_data[mid_index]) / 2

# 测试奇数个数据
odd_data = [1, 3, 2, 5, 4]
print(f"奇数个数据的中位数: {calculate_median(odd_data)}") # 输出 3

# 测试偶数个数据
even_data = [1, 3, 2, 5, 4, 6]
print(f"偶数个数据的中位数: {calculate_median(even_data)}") # 输出 3.5

#### 算法分析与决策

时间复杂度： O(N log N)。这主要由排序操作决定。Python 的 sort 使用的是 Timsort 算法，在处理部分有序的数据时表现极佳。
空间复杂度： O(N)。因为我们使用了 sorted() 创建了一个新列表。

优化视角：如果你正在处理海量数据流（实时数据分析），且内存受限，完全排序可能不是最优解。虽然原生 Python 实现较复杂，但在特定场景下可以考虑使用“快速选择算法”将平均时间复杂度降至 O(N)。不过在大多数通用业务场景下，内置排序的稳定性和可读性是最佳选择。

—

3. 众数：从字典统计到多模态处理

#### 概念解析

众数是指数据集中出现频率最高的数值。与平均值和中位数不同，众数必须是数据集中实际存在的值。值得注意的是，一个数据集可能有一个众数（单峰）、两个众数（双峰）或多个众数。

#### 方法一：使用 collections 模块（推荐）

Python 提供了一个强大的内置工具 collections.Counter，它是专门为计数设计的字典子类。这是查找众数最“Pythonic”且高效的方法。

from collections import Counter 

def calculate_mode(data):
    """
    计算众数，支持多峰结果。
    返回一个列表，包含所有出现频率最高的值。
    """
    if not data:
        return []

    # 使用 Counter 计算频率
    counts = Counter(data)
    
    # 找出最高频率
    max_freq = counts.most_common(1)[0][1]
    
    # 列表推导式：找出所有频率等于最高频率的键
    modes = [k for k, v in counts.items() if v == max_freq]
    
    # 可选：如果所有元素都只出现一次，视作无众数
    if max_freq == 1:
        return [] # 或者根据需求返回所有元素
        
    return modes

# 示例：双峰数据
n_num = [1, 2, 2, 3, 4, 4, 5] 
print(f"众数是: {calculate_mode(n_num)}") # 输出 [2, 4]

#### 方法二：纯算法逻辑（面试与受限环境首选）

为了加深对算法的理解，或者在某些无法导入 collections 的极少数受限环境下，我们可以完全依靠基础逻辑来实现。这能展示我们对数据结构的掌控力。

def calculate_mode_manual(data):
    """
    不使用 Counter，仅用字典计算众数。
    逻辑清晰，便于理解哈希表原理。
    """
    if not data:
        return []

    frequency = {}
    
    # 第一步：构建频率字典
    for item in data:
        # dict.get(key, default) 是处理默认值的优雅方式
        frequency[item] = frequency.get(item, 0) + 1
    
    # 第二步：寻找最大频率
    max_count = 0
    for count in frequency.values():
        if count > max_count:
            max_count = count
            
    # 第三步：收集结果
    modes = [k for k, v in frequency.items() if v == max_count]
    
    return modes

print(f"手动计算众数: {calculate_mode_manual([1, 1, 2, 2, 3])}")

—

4. 2026 前沿视角：AI 辅助调试与现代开发范式

在 2026 年，作为一个开发者，我们的工作方式已经发生了深刻的变化。当我们编写上述基础算法时，我们并不是孤军奋战。让我们思考一下，在现代化的开发流程中，如何结合 Agentic AI 和 可观测性 来提升代码质量。

#### AI 原生开发：从 Cursor 到生产环境

现在我们经常使用 Cursor 或 GitHub Copilot 等工具进行“结对编程”。你可能会让 AI 帮你生成一个计算中位数的函数，它会迅速给出 sorted(data)[len(data)//2] 的代码。但是，作为资深工程师，你的价值在于审查这段代码：

边界检查：AI 是否处理了空列表？
偶数逻辑：AI 是否考虑了偶数个元素取平均值的逻辑？（这是 AI 容易忽略的细节）
性能瓶颈：如果数据量达到 1 亿级别，这种 O(N log N) 的排序是否会导致服务超时？

这就是 Vibe Coding 的核心——我们通过自然语言引导 AI，利用其生成模板代码的能力，但最终由我们负责架构决策和逻辑校验。

#### 可观测性与调试：代码自我监控

想象一下，如果这个统计函数运行在一个高频交易的边缘计算设备上。仅仅计算出结果是不够的，我们需要知道计算耗时和内存占用。我们可以利用 Python 的装饰器来为这些原生函数添加“监控”能力，而不修改核心逻辑。

import time
import functools

def monitor_performance(func):
    """
    一个简单的装饰器，用于监控函数执行时间。
    这是现代 DevSecOps 中可观测性的微观体现。
    """
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        start_time = time.perf_counter()
        result = func(*args, **kwargs)
        end_time = time.perf_counter()
        
        # 在实际生产中，这里会将数据发送到 Prometheus 或 Datadog
        print(f"[性能监控] 函数 {func.__name__} 执行耗时: {(end_time - start_time)*1000:.4f} 毫秒")
        return result
    return wrapper

# 使用装饰器增强我们的均值函数
@monitor_performance
def calculate_mean_monitored(data):
    return sum(data) / len(data) if data else 0

# 模拟大规模数据
large_data = list(range(1000000))
calculate_mean_monitored(large_data)

当你运行这段代码时，你不仅得到了结果，还获得了性能指标。这种思维模式——在设计阶段就考虑监控和调试——正是 2026 年顶级后端开发的标志。

—

总结：从代码到架构的思考

在这篇文章中，我们不仅学习了如何计算平均数、中位数和众数，更重要的是，我们通过不使用外部库这一约束条件，深入挖掘了 Python 数据处理的底层逻辑。

回顾一下我们的探索历程：

算法基础：我们用原生 Python 实现了 O(N) 到 O(N log N) 复杂度的统计逻辑。
工程进化：我们讨论了类型提示、异常处理和数据清洗，将脚本级代码提升到了生产级。
未来趋势：我们结合了 AI 辅助编程和性能监控的理念，展示了技术在 2026 年的应用形态。

希望这些代码示例和实战见解能对你的编程之旅有所帮助。下次当你调用 Pandas 的 INLINECODE860db16f 时，你脑海里会清晰地浮现出 INLINECODE0cd90925 的影子，并且你会知道，如果需要优化、调试或移植到受限环境，你完全有能力亲手构建这些基础工具。继续保持好奇，继续构建！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

Python 核心算法：不依赖第三方库，手把手实现平均值、中位数与众数计算

1. 平均数：从基础公式到生产级代码

2. 中位数：处理偶数个数据的边缘情况

3. 众数：从字典统计到多模态处理

4. 2026 前沿视角：AI 辅助调试与现代开发范式

总结：从代码到架构的思考

相关文章美国1G带宽/1T流量高速vps $17.99/年