深入探索 Python 中的相关性分析：从理论到实战

2026-02-10 06:39:42 0条评论 1次阅读 0人点赞

在数据科学和机器学习的旅途中，我们首先要掌握的技能之一就是理解数据之间的关系。无论你是要预测房价、分析用户行为，还是优化机器学习模型，理解变量之间如何相互作用都是至关重要的。这就是我们通常所说的“相关性分析”。

在这篇文章中，我们将深入探讨如何使用 Python 进行相关性分析。我们不仅要理解皮尔逊、斯皮尔曼和肯德尔这三大核心统计指标，更重要的是，我们要学会如何将它们应用到实际的数据集中，并通过可视化的方式直观地展示这些关系。让我们开始这段探索之旅吧。

为什么相关性分析如此重要？

在我们编写代码之前，先停下来思考一下：为什么我们要花时间研究相关性？简单来说，相关性告诉我们两个变量是否“步调一致”。

特征选择：在构建机器学习模型时，如果两个特征之间存在极强的相关性（比如“房屋面积（平方英尺）”和“房屋面积（平方米）”），这意味着它们包含了重复的信息。我们可以通过相关性分析剔除冗余特征，从而简化模型，防止过拟合，这通常被称为检测多重共线性。
洞察业务逻辑：通过数据发现隐藏的规律。例如，我们可能会惊讶地发现，“广告投入”与“销售额”之间并非简单的线性关系。
辅助决策：数据不会说谎。了解变量间的关联强度和方向，能帮助我们在不确定性中做出更明智的决策。

Python 中的三种“武器”

Python 的生态系统（特别是 pandas 和 scipy）为我们提供了强大的工具来计算相关性。主要的方法有以下三种，我们要学会根据数据的特点选择合适的武器。

#### 1. 皮尔逊相关系数

这是最常用的方法，默认适用于大多数情况。它衡量的是两个变量之间的线性关系。

适用场景：数据是连续的（如身高、体重、温度），且数据呈正态分布。
注意：它非常容易受到极端值（离群点）的影响。如果数据中有巨大的异常值，皮尔逊系数可能会失真。

#### 2. 斯皮尔曼等级相关系数

如果不关注具体的数值，而是关注变量的“排名”或“等级”，斯皮尔曼就是不二之选。它衡量的是单调关系。

适用场景：数据是非线性的，或者是有序的分类数据（例如：满意度打分“1-非常不满意”到“5-非常满意”）。即使关系不是直线，只要是一个一直增加的趋势，斯皮尔曼就能捕捉到。

#### 3. 肯德尔相关系数

肯德尔系数与斯皮尔曼类似，也是基于秩次（排名）的，但它的计算方式不同，通常用于更小的数据集。

适用场景：数据量较小，或者数据中存在大量的“并列值”（即两个样本的排名相同）。相比斯皮尔曼，它在小样本下统计功效更高，也更稳健。

—

实战演练：在 Python 中探索相关性

光说不练假把式。让我们打开 Python 编辑器，引入我们的主力库：INLINECODEfe418840 用于数据处理，INLINECODEa55c7b78 和 matplotlib 用于可视化。

我们将创建一个包含学生成绩的示例数据集，看看数学、科学和英语这三门课的成绩之间是否存在某种神秘的联系。

#### 1. 准备数据

首先，我们需要构建一个 DataFrame。在现实工作中，你可能会用 pd.read_csv 来读取 Excel 或 CSV 文件。

# 导入必要的库
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np  # 为了生成一些随机数据

# 设置绘图风格，让图表更美观
sns.set_theme(style="whitegrid")

# 创建示例数据：学生成绩表
data = {
    ‘Math‘: [78, 85, 96, 80, 86, 70, 75, 88, 92, 60],
    ‘Science‘: [88, 90, 94, 82, 89, 75, 78, 92, 95, 65],
    ‘English‘: [72, 75, 78, 70, 74, 85, 82, 76, 70, 90]  # 注意：这里故意让英语和其他科目的趋势不同
}

# 将字典转换为 DataFrame
df = pd.DataFrame(data)

# 查看前几行数据，确保加载正确
print("学生成绩数据预览：")
print(df.head())

#### 2. 计算皮尔逊相关系数

当我们提到“计算相关性”时，90% 的情况默认指的都是皮尔逊相关系数。在 pandas 中，这非常简单，只需要一行代码 df.corr()。

# 计算皮尔逊相关系数矩阵
# method=‘pearson‘ 是默认值，写出来是为了强调
pearson_corr = df.corr(method=‘pearson‘)

print("皮尔逊相关系数矩阵：")
print(pearson_corr)

# 可视化：使用热力图展示相关性
plt.figure(figsize=(8, 6))
# annot=True 显示数值，cmap=‘coolwarm‘ 设置冷暖色调，center=0 以0为中心
sns.heatmap(pearson_corr, annot=True, cmap=‘coolwarm‘, center=0, vmin=-1, vmax=1)
plt.title("皮尔逊相关性热力图")
plt.show()

深度解析：

运行上述代码后，你会看到一个矩阵。请注意看“Math”和“Science”的交叉点，你会发现数值非常接近 1（比如 0.95）。这正如我们预期的那样：数学好的学生，物理（科学）通常也很好。这就是强正相关。反之，如果你发现“English”和“Math”的系数较低，说明逻辑思维能力和语言能力在这个样本中没有明显的线性关联。

#### 3. 深入非线性：斯皮尔曼相关系数

如果我们的数据不是连续的，或者关系不是直线的（例如，收入和幸福感，在一定范围内收入增加幸福感增加，但到了一定程度就不增加了），皮尔逊系数就会失效。这时我们需要斯皮尔曼。

# 计算斯皮尔曼相关系数
# 斯皮尔曼不仅关注数值，更关注排名的先后顺序
spearman_corr = df.corr(method=‘spearman‘)

print("
斯皮尔曼相关系数矩阵：")
print(spearman_corr)

# 可视化斯皮尔曼相关性
plt.figure(figsize=(8, 6))
# 使用 ‘viridis‘ 配色方案，感受不同的视觉效果
sns.heatmap(spearman_corr, annot=True, cmap=‘viridis‘, vmin=-1, vmax=1)
plt.title("斯皮尔曼相关性热力图")
plt.show()

实战见解：

在处理包含“排名”、“评分”的数据时，请优先考虑斯皮尔曼。它不像皮尔逊那样对异常值敏感。例如，如果一个亿万富翁混入了一群普通收入者中，皮尔逊系数会被这个极端值严重拉偏，但斯皮尔曼只关心他是“第一名”，而不关心他到底有多少钱，因此结果会更加稳健。

#### 4. 小样本利器：肯德尔相关系数

让我们看看第三种方法。虽然计算量稍大，但在小样本数据中，它的统计属性往往更优。

# 计算肯德尔相关系数
kendall_corr = df.corr(method=‘kendall‘)

print("
肯德尔相关系数矩阵：")
print(kendall_corr)

plt.figure(figsize=(8, 6))
sns.heatmap(kendall_corr, annot=True, cmap=‘plasma‘, vmin=-1, vmax=1)
plt.title("肯德尔相关性热力图")
plt.show()

肯德尔 vs 斯皮尔曼：

你会注意到肯德尔的系数值通常比斯皮尔曼要小。这很正常，因为两者的计算尺度不同。如果你的数据量很小（比如少于几十个样本），或者数据中有大量的“并列排名”（比如两个学生都是第 1 名），肯德尔是更准确的数学选择。

#### 5. 聚焦分析：两列之间的特定关系

有时，我们不需要看整个矩阵，只想知道“A变量到底和B变量有什么关系”？我们可以直接选取列进行计算。

# 计算数学和科学之间的单独相关性
# 这种方法返回的是一个单一的浮点数
math_science_corr = df[‘Math‘].corr(df[‘Science‘])

print(f"
数学与科学之间的相关系数为: {math_science_corr:.4f}")

# 提取两列生成一个小的 DataFrame 用于可视化
subset = df[[‘Math‘, ‘Science‘]]

# 绘制这两列的散点图与热力图对比
plt.figure(figsize=(10, 4))

# 子图1: 热力图
plt.subplot(1, 2, 1)
sns.heatmap(subset.corr(), annot=True, cmap=‘Blues‘, vmin=-1, vmax=1)
plt.title("热力图视图")

# 子图2: 散点图 (更直观的查看线性关系)
plt.subplot(1, 2, 2)
sns.regplot(x=‘Math‘, y=‘Science‘, data=df, color=‘green‘)
plt.title("散点图视图")

plt.tight_layout()
plt.show()

通过对比热力图和散点图，我们可以更直观地理解相关系数的物理意义。在散点图中，如果点几乎排成一条直线，那么热力图中的系数就会接近 1 或 -1。

实战中的陷阱与最佳实践

作为开发者，我们在实际生产环境中使用相关性分析时，有几个“坑”一定要避开。

1. 相关性不等于因果性

这是老生常谈，但也是最容易犯的错误。如果数据表明“冰淇淋销量”和“溺水事故”高度正相关，这不代表卖冰淇淋导致了溺水。这背后往往有一个隐藏变量（混淆变量）——气温。夏天热导致大家买冰淇淋，也导致大家去游泳。我们在分析时，一定要结合业务逻辑，切勿盲目下结论。

2. 异常值的破坏力

正如前面提到的，皮尔逊系数对异常值极其敏感。如果你在计算相关性前没有清洗数据，一个错误的录入可能会导致整个分析结果南辕北辙。建议： 在计算相关性之前，先用 df.describe() 或箱线图检查一下数据分布。

3. 非线性关系的盲区

如果你只看皮尔逊系数，可能会错过重要的非线性关系。例如，$y = x^2$ 在区间 $[-1, 1]$ 上皮尔逊系数可能是 0，但显然它们存在强烈的数学关系。建议： 始终结合散点图来辅助判断，不要只依赖冷冰冰的数字。

4. 处理非数值数据

如果你想计算分类变量（如“性别”、“城市”）与数值变量的相关性，直接使用 INLINECODE891a5980 会报错。你需要先使用 INLINECODE01838d33 进行独热编码，或者使用其他针对分类变量的相关性分析方法（如方差分析 ANOVA）。

性能优化建议

在处理大规模数据集（例如数百万行数据）时，计算相关性矩阵可能会消耗大量内存和时间。

采样：如果不要求极高的精度，可以先对数据进行采样（df.sample(frac=0.1)），在样本上计算相关性，往往能快速得到大致的趋势。
减少精度：使用 astype(‘float32‘) 可以将内存占用减半，对于相关性分析这种对精度不是极其敏感的场景通常足够了。

总结与后续步骤

在这篇文章中，我们完整地探索了 Python 中相关性分析的方方面面。从理解基本概念，到掌握皮尔逊、斯皮尔曼和肯德尔三种核心方法，再到通过代码实战和可视化来揭示数据背后的规律。

让我们回顾一下关键点：

皮尔逊：用于线性、连续数据，最常用。
斯皮尔曼：用于单调、非线性或有序数据，抗干扰能力强。
肯德尔：用于小样本或排名数据。

现在你已经掌握了这些工具，下一步该怎么做？我建议你找一份自己感兴趣的真实数据集（比如 Kaggle 上的泰坦尼克号数据集或房价预测数据集），尝试自己进行一次完整的相关性分析。不仅要计算数字，更要尝试回答：“这些变量之间为什么会这样关联？”

希望这篇文章能帮助你更好地理解数据。如果你在实操中遇到任何问题，欢迎随时回来查阅代码示例。祝你数据分析愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客