如何使用 Matplotlib 在 Python 中绘制正态分布：从原理到实战的完全指南

2026-02-13 22:52:33 0条评论 2次阅读 0人点赞

在数据科学、金融建模和工程统计等领域，正态分布（也称为高斯分布）无疑是最重要的概率分布之一。你是否曾想过如何利用 Python 将这条经典的“钟形曲线”可视化？无论是为了验证数据假设，还是为了在报告中展示统计结果，掌握如何绘制正态分布都是一项必备技能。

在这篇文章中，我们将深入探讨使用 Python 绘制正态分布的多种方法。我们将从基本的数学原理入手，逐步介绍如何利用 SciPy、NumPy、Matplotlib 和 Seaborn 等核心库来实现这一目标。我们将不仅限于简单的绘图，还会深入讲解背后的代码逻辑，并提供实用的代码示例和最佳实践，帮助你更自信地处理数据可视化任务。

1 正态分布的核心概念
2 方法一：使用 SciPy 和 Matplotlib 绘制精确曲线
3 方法二：使用 NumPy 手动实现数学公式
4 方法三：使用 Seaborn 进行数据可视化
5 进阶技巧：更改均值与标准差
6 常见问题与最佳实践
7 总结

正态分布的核心概念

在开始编写代码之前，让我们先快速回顾一下什么是正态分布。正态分布是一条对称的、钟形的曲线，描述了数据值是如何围绕均值分布的。现实生活中许多自然现象都近似服从正态分布，例如身高、考试成绩或测量误差。

其概率密度函数（PDF）由以下公式定义：

其中，$x$ 是变量，$\mu$（mu）是分布的均值（曲线的中心位置），$\sigma$（sigma）是标准差（决定曲线的平坦或陡峭程度）。

该函数的一个特例，被称为标准正态分布，出现在 $\mu=0$ 且 $\sigma=1$ 时。我们在下面的例子中主要使用标准正态分布进行演示，但所有的技术同样适用于任何均值和标准差。

方法一：使用 SciPy 和 Matplotlib 绘制精确曲线

对于需要精确统计计算的场景，结合使用 INLINECODE6fd8a26b 和 INLINECODE195a4c7a 是最标准的方法。scipy.stats.norm.pdf() 函数能够直接计算正态分布的概率密度函数值。

这种方法利用 SciPy 强大的统计引擎来生成数据点，然后使用 Matplotlib 进行绘制。它特别适合需要精确控制参数或进行假设检验的场景。

代码示例

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 设置随机种子以保证结果可复现
np.random.seed(42)

# 1. 准备数据：在 -4 到 4 之间生成 1000 个均匀间隔的点
x = np.linspace(-4, 4, 1000)

# 2. 计算概率密度函数 (PDF)
# 默认情况下 loc=0 (均值), scale=1 (标准差)
y = norm.pdf(x)

# 3. 绘制图表
plt.figure(figsize=(10, 6))
plt.plot(x, y, ‘b-‘, label=‘标准正态分布‘, linewidth=2)

# 添加图表元素
plt.title(‘使用 SciPy 绘制正态分布曲线‘, fontsize=14)
plt.xlabel(‘X 变量值‘, fontsize=12)
plt.ylabel(‘概率密度‘, fontsize=12)
plt.legend(fontsize=12)
plt.grid(True, linestyle=‘--‘, alpha=0.7)

# 显示图表
plt.show()

代码深度解析

让我们仔细分析一下这段代码的工作原理：

数据生成 (INLINECODE9e23f33d)：我们不能只画一条线，我们需要一系列点来模拟平滑的曲线。INLINECODE325c5bcd 生成了 1000 个 $x$ 值。为什么是 -4 到 4？因为在标准正态分布中，约 99.9% 的数据都落在距离均值 4 个标准差的范围内，这足以覆盖整个钟形曲线。
概率计算 (norm.pdf)：这是核心步骤。SciPy 帮我们计算了每个 $x$ 点对应的 $y$ 值（即概率密度）。你不需要手动编写复杂的数学公式，SciPy 已经为你优化了这一过程。
可视化 (INLINECODEcf1e9309)：我们将 $x$ 和 $y$ 传递给 Matplotlib，画出一条蓝色的实线。INLINECODE17875df3 让线条更醒目。

方法二：使用 NumPy 手动实现数学公式

作为数据科学家，理解公式背后的数学逻辑至关重要。如果你不想依赖 SciPy，或者想完全自定义分布的计算方式，我们可以直接使用 NumPy 根据高斯公式进行计算。

这种方法不仅有助于理解正态分布背后的数学原理，而且在处理自定义概率分布时非常有用。它展示了如何将数学公式直接转化为代码。

代码示例

import numpy as np
import matplotlib.pyplot as plt

# 定义均值和标准差
mu = 0
sigma = 1

# 生成 x 轴数据
x = np.linspace(-4, 4, 1000)

# 使用 NumPy 手动计算高斯公式
# 公式: (1 / (sigma * sqrt(2 * pi))) * exp(-0.5 * ((x - mu) / sigma)^2)
y = (1 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma)**2)

# 绘制图表
plt.figure(figsize=(10, 6))
plt.plot(x, y, ‘r-‘, label=‘手动计算的正态分布‘, linewidth=2)

plt.title(‘使用 NumPy 公式绘制正态分布‘, fontsize=14)
plt.xlabel(‘X 变量值‘, fontsize=12)
plt.ylabel(‘概率密度‘, fontsize=12)
plt.legend(fontsize=12)
plt.grid(True, linestyle=‘--‘, alpha=0.7)

# 填充曲线下方的区域（可选）
plt.fill_between(x, y, color=‘red‘, alpha=0.1)

plt.show()

实用见解：为什么我们需要填充区域？

在上面的代码中，我们添加了 plt.fill_between。在实际应用中，比如计算置信区间或展示特定范围内的概率时，将曲线下的某个区域填色是非常直观的做法。这能帮助你的观众更好地理解“累积概率”的概念。

方法三：使用 Seaborn 进行数据可视化

前面两种方法绘制的是“理论上的完美曲线”。但在现实世界中，我们手头往往只有一堆杂乱的原始数据，而不是完美的数学公式。这时候，Seaborn 库就派上用场了。

Seaborn 提供了 核密度估计 (KDE) 功能。它不需要你指定公式或参数，而是直接从你的数据中“估算”出分布的形状。这是处理现实世界数据集（例如用户点击率、服务器响应时间）最理想的方法。

代码示例

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 生成模拟数据：1000 个服从标准正态分布的随机数
# 这模拟了现实世界中收集到的原始数据
data = np.random.normal(loc=0, scale=1, size=1000)

# 设置 Seaborn 风格
sns.set_style("whitegrid")

# 绘制 KDE 图
plt.figure(figsize=(10, 6))
# sns.kdeplot 会自动计算带宽并平滑曲线
sns.kdeplot(data, color=‘green‘, label=‘KDE 估计分布‘, linewidth=2, fill=True)

plt.title(‘使用 Seaborn KDE 可视化随机数据分布‘, fontsize=14)
plt.xlabel(‘观测值‘, fontsize=12)
plt.ylabel(‘密度‘, fontsize=12)
plt.legend(fontsize=12)

plt.show()

关键区别：理论 vs. 估计

你可能已经注意到，Seaborn 绘制的线条可能不如 SciPy 的线条那么“完美”。这是因为它是基于有限的样本（代码中的 1000 个点）进行估算的。数据量越大，KDE 曲线就越接近理论上的正态分布曲线。 在实际项目中，学会在“完美曲线”和“实际数据”之间切换视角是非常重要的。

进阶技巧：更改均值与标准差

到目前为止，我们绘制的都是标准正态分布（均值=0，标准差=1）。但在实际应用中，数据往往有不同的中心位置和离散程度。让我们来看看如何调整这两个参数。

代码示例：对比不同的分布

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

x = np.linspace(-10, 10, 1000)

plt.figure(figsize=(12, 6))

# 分布 1：标准正态分布
plt.plot(x, norm.pdf(x, loc=0, scale=1), label=‘均值=0, 标准差=1‘, linestyle=‘-‘)

# 分布 2：均值移动到了 5
plt.plot(x, norm.pdf(x, loc=5, scale=1), label=‘均值=5, 标准差=1‘, linestyle=‘--‘)

# 分布 3：均值相同，但标准差变大（曲线更矮胖）
plt.plot(x, norm.pdf(x, loc=0, scale=2), label=‘均值=0, 标准差=2‘, linestyle=‘-.‘)

plt.title(‘不同参数下的正态分布对比‘, fontsize=14)
plt.xlabel(‘X‘, fontsize=12)
plt.ylabel(‘概率密度‘, fontsize=12)
plt.legend()
plt.grid(alpha=0.5)
plt.show()

这个例子直观地展示了：

均值决定了曲线在 X 轴上的位置。
标准差 决定了曲线的宽度。标准差越大，数据越分散，曲线就越平坦。

常见问题与最佳实践

在我们结束之前，让我们探讨几个在绘图过程中你可能会遇到的常见问题，以及如何优雅地解决它们。

1. 曲线看起来不够平滑

问题：你的曲线看起来像是由折线组成的，甚至有锯齿。
原因：通常是 np.linspace 中的点数太少（例如只取了 10 个点）。
解决：增加点的数量。对于一般用途，我们推荐使用 1000 个点，甚至更多。

2. Y 轴数值非常小

问题：你会发现 Y 轴的数值只有 0.4 甚至更小。这正常吗？
原因：这是完全正常的。对于连续型概率分布，Y 轴代表的是概率密度，而不是概率本身。某个确切点（如 x=0）的概率是 0。曲线下的总面积才等于 1。

3. 如何处理大规模数据集的性能问题

问题：如果你有数百万个数据点，直接绘制 sns.kdeplot 或直方图可能会非常慢。
优化建议：

抽样：在绘图前对数据进行随机抽样（例如 data.sample(10000)），通常足以保持分布的形状。
使用直方图的 bins 参数：不要让 Matplotlib 自动计算 bin 的数量，手动设置合理的 bins 值（如 50 或 100）。

4. 中文显示乱码

问题：在标题或标签中使用了中文，结果显示为方框。
解决：你需要配置 Matplotlib 的字体。这取决于你的操作系统，但通常可以通过以下方式解决：

plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘] # 用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus‘] = False # 用来正常显示负号

总结

通过这篇文章，我们探索了在 Python 中绘制正态分布的多种实用方法。

我们学会了如何使用 SciPy 进行精确的理论计算，如何利用 NumPy 从数学底层实现公式，以及如何使用 Seaborn 处理带有噪声的现实世界数据。我们还深入探讨了均值和标准差如何影响曲线的形状，并分享了处理绘图性能和常见错误的实用技巧。

在实际的数据分析工作流中，建议你根据数据的特点选择工具：如果你有明确的参数模型，使用 INLINECODE1efde452；如果你拿到的是原始数据集，INLINECODEcd33bd03 的 KDE 图通常是观察分布形态的最佳起点。

现在，你可以尝试在自己的数据集上应用这些技巧。如果曲线看起来不理想，不妨调整一下标准差，或者增加数据点的数量。祝你绘制出完美且富有洞察力的图表！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何使用 Matplotlib 在 Python 中绘制正态分布：从原理到实战的完全指南

正态分布的核心概念

方法一：使用 SciPy 和 Matplotlib 绘制精确曲线

代码示例

代码深度解析

方法二：使用 NumPy 手动实现数学公式

代码示例

实用见解：为什么我们需要填充区域？

方法三：使用 Seaborn 进行数据可视化

代码示例

关键区别：理论 vs. 估计

进阶技巧：更改均值与标准差

代码示例：对比不同的分布

常见问题与最佳实践

1. 曲线看起来不够平滑

2. Y 轴数值非常小

3. 如何处理大规模数据集的性能问题

4. 中文显示乱码

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年