CDF 与 PDF：深入理解连续随机变量的分布差异

2026-02-01 20:30:47 0条评论 1次阅读 0人点赞

在处理数据科学、机器学习或工程统计问题时，你可能会发现，连续随机变量（Continuous Random Variables）无处不在。当我们试图量化不确定性或描述数据的分布情况时，累积分布函数（CDF） 和 概率密度函数（PDF） 是两个最核心的基石。虽然它们看起来都像是描述数据的曲线，但它们告诉我们的故事截然不同。如果你曾经对“到底该用哪一个”感到困惑，或者想知道为什么 PDF 的某个点可以是大于 1 的，那么这篇文章正是为你准备的。

今天，我们将深入探讨这两个概念之间的本质区别，并通过实际的代码示例来演示如何在 Python 中计算和可视化它们，帮助你从直观上彻底掌握它们。

!CDF-vs-PDF-Visualization

1 目录
2 什么是概率密度函数 (PDF)？
3 什么是累积分布函数 (CDF)？
4 CDF 和 PDF 的核心区别
5 PDF 和 CDF 之间的数学关系
6 实际应用场景与最佳实践
7 总结
8 进一步阅读，

什么是概率密度函数 (PDF)？

基本概念

PDF 代表 概率密度函数。它是我们理解连续随机变量最直观的工具。你可以把它想象成一张“概率地形图”。

当我们处理离散数据（比如掷骰子）时，我们可以简单地说“掷出 6 的概率是 1/6”。但是，对于连续数据（比如气温、时间或身高），取某一个特定值的概率在数学上被定义为 0（因为可能性的值是无限的）。

这就是 PDF 发挥作用的地方。PDF 并不直接给出某一点的概率，而是给出了概率在这一点上的“密度”或“高度”。

举个例子

想象一下，我们想描述某城市一天中气温的分布。

X 轴代表气温（例如 20°C 到 40°C）。
Y 轴（即 PDF 值）代表该气温出现的可能性大小。

如果曲线在 30°C 附近很高，这意味着气温落在 30°C 左右的可能性非常大。而如果在 40°C 附近曲线平贴 X 轴（接近 0），说明出现极高温的可能性微乎其微。

关键特征

非负性：PDF 的值永远大于或等于 0 ($f(x) \ge 0$)。

n2. 总面积为 1：曲线下的总面积（积分）必须等于 1。这代表了“所有可能发生的事情的总概率是 100%”。

Python 代码示例：绘制 PDF

让我们使用 Python 的 INLINECODE559d9f31 和 INLINECODE89b901b9 库来绘制一个标准正态分布的 PDF。这是最经典的分布形状（钟形曲线）。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 1. 设定数据范围：从 -4 到 4，生成 1000 个点
x = np.linspace(-4, 4, 1000)

# 2. 计算正态分布的 PDF (均值 mu=0, 标准差 sigma=1)
# 这里的 pdf 函数返回的就是概率密度值
pdf_values = norm.pdf(x, loc=0, scale=1)

# 3. 设置绘图风格
plt.figure(figsize=(10, 6))
plt.plot(x, pdf_values, label=‘Standard Normal PDF‘, color=‘blue‘, linewidth=2)
plt.fill_between(x, pdf_values, alpha=0.2, color=‘blue‘) # 填充区域以强调面积概念

# 4. 添加标题和标签
plt.title(‘概率密度函数 (PDF) 示例：标准正态分布‘, fontsize=14)
plt.xlabel(‘随机变量 X (数值)‘, fontsize=12)
plt.ylabel(‘概率密度 $f(x)$‘, fontsize=12)
plt.grid(True, linestyle=‘--‘, alpha=0.7)
plt.legend()

plt.show()

代码解读：

在这段代码中，我们首先生成了从 -4 到 4 的均匀数据点。接着，使用 scipy.stats.norm.pdf 计算了每个点对应的密度值。注意看图表，虽然 y 轴的数值（密度）可能超过 0.4，但这并不代表概率是 40%。概率是曲线下方的面积，而不是单个点的高度。这在初学者中是一个非常常见的误区。

什么是累积分布函数 (CDF)？

基本概念

CDF 代表 累积分布函数。如果说 PDF 描述的是“此时此刻的概率密度”，那么 CDF 描述的就是“到目前为止的累计概率总量”。

用数学语言来说，CDF 表示随机变量 $X$ 小于或等于 某个特定值 $x$ 的概率，记作 $F(x) = P(X \le x)$。

它是如何工作的？

想象你在爬楼梯：

起点：在负无穷处，CDF 值为 0（因为还没有任何概率累积）。
过程：随着你向右移动（X 轴数值增加），你不断地把 PDF 曲线下方的面积“加”起来。因此，曲线只会不断上升，永远不会下降。
终点：在正无穷处，CDF 值为 1（代表 100% 的概率都被累积完了）。

对于离散变量，CDF 呈现阶梯状（每遇到一个可能的值就跳一步）；而对于连续变量，它是一条平滑递增的曲线。

Python 代码示例：绘制 CDF

我们将使用同样的正态分布数据来绘制其 CDF，看看它是如何从 0 逐渐增长到 1 的。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 1. 设定数据范围
x = np.linspace(-4, 4, 1000)

# 2. 计算正态分布的 CDF
# cdf 函数返回的是累积概率值（范围在 0 到 1 之间）
cdf_values = norm.cdf(x, loc=0, scale=1)

# 3. 绘图
plt.figure(figsize=(10, 6))
plt.plot(x, cdf_values, label=‘Standard Normal CDF‘, color=‘red‘, linewidth=2)

# 添加辅助线，帮助理解特定点的概率
plt.axhline(y=0.5, color=‘gray‘, linestyle=‘--‘) # 标记 50% 概率线
plt.axvline(x=0, color=‘gray‘, linestyle=‘--‘)  # 标记中位点

# 4. 添加注释
plt.text(0, 0.52, ‘Median (50%)‘, fontsize=10, ha=‘center‘)
plt.title(‘累积分布函数 (CDF) 示例：从 0 到 1 的累积‘, fontsize=14)
plt.xlabel(‘随机变量 X (数值)‘, fontsize=12)
plt.ylabel(‘累积概率 $F(x)$‘, fontsize=12)
plt.grid(True, linestyle=‘--‘, alpha=0.7)
plt.legend()

plt.show()

代码解读：

通过观察这张图，你会发现曲线在 $x=0$ 处正好穿过 $y=0.5$。这意味着有 50% 的概率数值会小于 0。这在实际数据分析中非常有用，例如，如果你想知道你的网站加载时间比 95% 的用户都快，你需要找到 CDF 值为 0.95 时对应的那个 X 值（这在统计学中被称为分位数 Quantile）。

CDF 和 PDF 的核心区别

为了更清晰地对比，我们可以从以下几个维度来看它们的差异。理解这些区别，有助于你在实际工程中做出正确的判断。

特征

累积分布函数 (CDF)

概率密度函数 (PDF) :—

:—

:— 定义

随机变量 $X$ 小于或等于 $x$ 的概率。$P(X \le x)$

随机变量在特定值 $x$ 处的相对可能性（密度）。 数值范围

Y 轴值始终在 0 到 1 之间。

Y 轴值可以是任何非负数（可以大于 1）。趋势

单调非递减函数（只能上升或持平）。

可以上升、下降，呈现波形（如钟形曲线）。 直观含义

“到目前为止发生了多少？”

“这一刻发生的强度有多大？” 应用场景

计算阈值概率（如：P(X < 10)）。

查看数据分布的形状，寻找众数（峰值）。

实用对比：计算区间概率

假设我们要计算数据落在 -1 到 1 之间的概率：

使用 PDF：我们需要对 $f(x)$ 在区间 $[-1, 1]$ 上进行积分（计算曲线下面积）。这在数学上有时比较复杂。
使用 CDF：这变得非常简单。我们只需要用 1 处的 CDF 值减去 -1 处的 CDF 值。即 $F(1) – F(-1)$。

让我们用 Python 来验证一下这个数学关系，这能让你更直观地理解两者是如何互补的。

from scipy.stats import norm

# 定义区间
x1 = -1
x2 = 1

# --- 方法 1: 使用 CDF ---
# 直接通过累积值的差值计算
prob_using_cdf = norm.cdf(x2) - norm.cdf(x1)
print(f"使用 CDF 计算的概率 (-1 到 1): {prob_using_cdf:.4f}")

# --- 方法 2: 使用 PDF ---
# 使用数值积分 (近似计算曲线下的面积)
# 生成密集的点来近似积分
x_dense = np.linspace(x1, x2, 100000)
pdf_dense = norm.pdf(x_dense)
# 矩形法近似积分：高度 * 宽度
prob_using_pdf_int = np.sum(pdf_dense) * (x_dense[1] - x_dense[0])
print(f"使用 PDF 积分计算的概率 (-1 到 1): {prob_using_pdf_int:.4f}")

# 验证结果
assert abs(prob_using_cdf - prob_using_pdf_int) < 1e-4, "两种方法结果应该一致"
print("验证通过：CDF 的差值确实等于 PDF 的积分。")

在这段代码中，我们展示了虽然 PDF 看起来更直观，但如果我们想计算“区间概率”，CDF 往往是更高效的计算工具。

PDF 和 CDF 之间的数学关系

从数学上讲，CDF 和 PDF 是微积分中的积分与微分关系。理解这一点对于高阶数据分析至关重要。

PDF 是 CDF 的导数：

$f(x) = \frac{d}{dx}F(x)$

这意味着，CDF 曲线在某个点的斜率，就是该点的 PDF 值。如果你看到 CDF 曲线突然变得很陡峭，说明在这个区间内数据非常密集（PDF 值很高）。

CDF 是 PDF 的积分：

$F(x) = \int_{-\infty}^{x} f(t) dt$

正如我们在前面代码示例中看到的，CDF 是 PDF 从负无穷到当前点的累积面积。

实际应用场景与最佳实践

既然我们已经掌握了理论，让我们看看在现实世界的开发中，这些知识能解决什么问题。

1. 系统性能监控（A/B 测试与阈值告警）

作为开发者，你可能需要监控 API 的响应时间。

使用 PDF：你可以绘制响应时间的分布图。如果曲线呈现出两个峰值（双峰分布），可能意味着系统存在两种不同的处理模式（例如：缓存命中和缓存未命中），这是一个极佳的诊断线索。

使用 CDF：通常用于设定 SLA（服务等级协议）。例如，你可能要求 99% 的请求必须在 200ms 内完成。通过查看 CDF 图，你可以直接在 Y 轴找到 0.99，然后看对应的 X 轴数值是多少。如果这个数值超过了 200ms，你就知道系统不达标了。

2. 异常检测

在训练机器学习模型时，我们可以利用 PDF 来识别异常值。如果一个新数据点落在 PDF 曲线极低的位置（即尾部区域，也就是概率密度极低的地方），那么这个点很可能是异常值。

3. 生成随机数（蒙特卡洛模拟）

你可能知道如何生成一个 0 到 1 之间的均匀随机数。但如果你想生成服从正态分布的随机数怎么办？

我们利用 CDF 的反函数（Inverse CDF，PPF）。

生成一个均匀分布的随机数 $u$（0 到 1 之间）。
计算 $x = F^{-1}(u)$，其中 $F^{-1}$ 是 CDF 的反函数。
这样得到的 $x$ 就服从目标分布。

让我们用代码验证这个有趣的小技巧：

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 1. 生成 1000 个均匀分布的随机数 (0 到 1)
u_values = np.random.uniform(0, 1, 1000)

# 2. 使用正态分布的 PPF (Percent Point Function，即 CDF 的反函数)
# 将这些均匀随机数转换为正态分布随机数
normal_dist_values = norm.ppf(u_values)

# 3. 绘制转换后的数据直方图，看看是否像正态分布
plt.figure(figsize=(10, 6))
plt.hist(normal_dist_values, bins=30, density=True, alpha=0.6, color=‘g‘, label=‘生成的随机数分布‘)

# 叠加理论 PDF 曲线进行对比
x = np.linspace(-4, 4, 100)
plt.plot(x, norm.pdf(x), ‘r-‘, linewidth=2, label=‘理论 PDF‘)

plt.title(‘利用反 CDF (PPF) 生成正态分布随机数‘, fontsize=14)
plt.legend()
plt.show()

通过这个技巧，你可以利用任何简单的随机数生成器，创造出服从任何复杂分布的数据，这在游戏开发和模拟仿真中非常有用。

总结

在今天的探索中，我们深入剖析了统计学的两大支柱：CDF 和 PDF。

把 PDF 想象成快照：它向我们展示了数据在任意给定点的具体形状和密度。
把 CDF 想象成记分牌：它告诉我们随着数值的增加，累积起来有多少概率已经被“捕获”了。

掌握这两者之间的区别和联系，不仅有助于你通过考试，更能让你在面对实际数据分析任务（如性能优化、A/B 测试或机器学习特征工程）时，选择更合适的工具和指标。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

CDF 与 PDF：深入理解连续随机变量的分布差异

目录

什么是概率密度函数 (PDF)？

基本概念

举个例子

关键特征

Python 代码示例：绘制 PDF

什么是累积分布函数 (CDF)？

基本概念

它是如何工作的？

Python 代码示例：绘制 CDF

CDF 和 PDF 的核心区别

实用对比：计算区间概率

PDF 和 CDF 之间的数学关系

实际应用场景与最佳实践

1. 系统性能监控（A/B 测试与阈值告警）

2. 异常检测

3. 生成随机数（蒙特卡洛模拟）

总结

进一步阅读，

相关文章美国1G带宽/1T流量高速vps $17.99/年