使用 Pandas 计算 Cramér‘s V 系数矩阵：深入解析与实战

2026-02-03 19:27:14 0条评论 4次阅读 0人点赞

在数据科学和统计分析的日常工作中，我们经常遇到这样的挑战：如何量化两个分类变量（如“性别”与“购买偏好”，或者“城市等级”与“客户流失”）之间的关联程度？如果我们处理的是连续数值，皮尔逊相关系数是我们的首选；但面对非数值的类别数据，传统的相关性分析方法往往显得力不从心。

这时，Cramér‘s V 系数便成了我们手中的利器。它是基于卡方检验的一种相关性度量方法，专门用于解决分类变量之间的关联强度问题。

在本文中，我们将专注于如何使用 Python 中的 Pandas 库来计算 Cramér‘s V 系数矩阵。我们将一起探索从理论到实践的全过程，不仅让你掌握“怎么做”，更让你理解“为什么这么做”。最终，我们将构建一个类似于相关性热力图的矩阵，让你能够一眼看穿数据集中所有分类变量之间的微妙关系。

1 目录
2 理解 Cramér‘s V 系数
3 为什么对分类数据使用 Cramér‘s V？
4 使用 Pandas 计算 Cramér 系数矩阵：详细步骤
5 常见错误与解决方案
6 性能优化建议
7 Cramér‘s V 的局限性
8 总结

理解 Cramér‘s V 系数

Cramér‘s V 是对两个名义变量之间关联程度的度量。它的值范围在 0 到 1 之间：

0：表示两个变量之间完全没有关联（独立）。
1：表示两个变量之间存在完全关联。

它是如何工作的？

简单来说，Cramér‘s V 是卡方检验统计量的标准化版本。计算过程通常分为三步：

构建列联表：统计两个变量各类别组合的频数。
计算卡方值：利用卡方检验判断观测频数与期望频数之间的偏差。
标准化：将卡方值除以样本量和自由度，并开平方根，得到 Cramér‘s V。

为什么对分类数据使用 Cramér‘s V？

在处理分类数据时，直接使用皮尔逊等传统相关性指标往往会得到错误的结果，甚至无法计算。Cramér‘s V 填补了这一空白，它不仅能告诉我们变量是否相关（像卡方检验那样），还能告诉我们相关性的强度如何。

应用场景举例：

市场营销：评估“用户年龄段”（分类）与“点击广告类别”（分类）之间是否存在强关联。
风控建模：在特征工程阶段，筛选出与目标变量（如“是否违约”）高度相关的类别特征，去除冗余特征。
社会学调查：分析“教育程度”与“政治倾向”的相关性。

使用 Pandas 计算 Cramér 系数矩阵：详细步骤

让我们直接进入代码环节。为了让你全面理解，我们将从基础函数开始，逐步构建出完整的矩阵分析流程。

步骤 1：环境准备与数据模拟

首先，我们需要引入必要的库：INLINECODE385880d2 用于数据处理，INLINECODE4f8ec06b 用于数值计算，INLINECODE334fc173 中的 INLINECODEdc179570 用于核心统计计算。

import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency
import seaborn as sns
import matplotlib.pyplot as plt

# 设置随机种子以保证结果可复现
np.random.seed(42)

# 创建一个包含分类变量的模拟数据集
# 假设我们有一份关于用户喜好的调查数据
data = {
    ‘Gender‘: np.random.choice([‘Male‘, ‘Female‘, ‘Other‘], size=200),
    ‘Age_Group‘: np.random.choice([‘18-25‘, ‘26-35‘, ‘36-50‘, ‘50+‘], size=200),
    ‘Product_Preference‘: np.random.choice([‘Electronics‘, ‘Fashion‘, ‘Home‘, ‘Books‘], size=200),
    ‘Subscription_Type‘: np.random.choice([‘Free‘, ‘Premium‘, ‘VIP‘], size=200),
    ‘Churn‘: np.random.choice([0, 1], size=200)  # 0: 留存, 1: 流失
}

df = pd.DataFrame(data)

# 快速查看前几行数据
print("数据预览：")
print(df.head())

步骤 2：定义 Cramér‘s V 计算函数

这是核心部分。我们需要一个函数，它接受两个序列（两列数据），返回一个 Cramér‘s V 值。

为了提高准确性，我们将在函数中加入偏差校正。标准的 Cramér‘s V 在小样本或列联表不对称时可能会产生高估，校正版本可以缓解这个问题。

def calculate_cramers_v(column_x, column_y):
    """
    计算两个分类变量之间的 Cramér‘s V 系数（带偏差校正）。
    
    参数:
    column_x (pd.Series): 第一个分类变量
    column_y (pd.Series): 第二个分类变量
    
    返回:
    float: Cramér‘s V 值
    """
    # 1. 创建列联表
    confusion_matrix = pd.crosstab(column_x, column_y)
    
    # 2. 执行卡方检验
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    phi2 = chi2 / n
    
    # 3. 计算自由度和矩阵维度
    r, k = confusion_matrix.shape
    
    # 4. 计算偏差校正后的 Phi2
    # 这是处理小样本偏差的关键步骤
    phi2_corrected = max(0, phi2 - ((k - 1) * (r - 1)) / (n - 1))
    
    # 5. 计算校正后的维度
    k_corrected = k - (k - 1) ** 2 / (n - 1)
    r_corrected = r - (r - 1) ** 2 / (n - 1)
    
    # 6. 计算 V 值
    denominator = min(k_corrected - 1, r_corrected - 1)
    if denominator == 0:
        return 0.0
    
    v = np.sqrt(phi2_corrected / denominator)
    return round(v, 4) # 保留4位小数

# 让我们测试一下 Gender 和 Product_Preference 之间的关联
v_val = calculate_cramers_v(df[‘Gender‘], df[‘Product_Preference‘])
print(f"
示例 - Gender 与 Product_Preference 的 Cramér‘s V: {v_val}")

步骤 3：构建完整的关联矩阵

现在我们要遍历数据集中所有的分类列，两两配对计算 Cramér‘s V，最终生成一个矩阵。这在探索性数据分析（EDA）阶段非常有用，可以让我们快速发现哪些特征之间存在冗余或强关联。

def build_cramers_matrix(df):
    """
    构建 DataFrame 中所有分类变量的 Cramér‘s V 矩阵。
    """
    # 筛选出类别类型的列（object 或 category 类型）
    categorical_cols = df.select_dtypes(include=[‘object‘, ‘category‘]).columns
    
    # 初始化一个全零的 DataFrame
    matrix = pd.DataFrame(index=categorical_cols, columns=categorical_cols)
    
    # 双重循环计算每一对变量
    for col1 in categorical_cols:
        for col2 in categorical_cols:
            if col1 == col2:
                # 对角线元素：变量与自身完全相关，设为 1
                matrix.loc[col1, col2] = 1.0
            else:
                # 计算非对角线元素
                matrix.loc[col1, col2] = calculate_cramers_v(df[col1], df[col2])
                
    return matrix.astype(float)

# 计算矩阵
cramers_matrix = build_cramers_matrix(df)
print("
Cramér‘s V 系数矩阵：")
print(cramers_matrix)

步骤 4：可视化分析

数字矩阵往往不够直观。让我们用热力图将其可视化，这样你就能一眼看出哪些变量之间存在强关联（颜色较深）。

plt.figure(figsize=(10, 8))
# 使用 seaborn 绘制热力图
# annot=True 显示数值，cmap=‘coolwarm‘ 使用冷暖色调，fmt=‘.2f‘ 保留两位小数
sns.heatmap(cramers_matrix, annot=True, cmap=‘coolwarm‘, vmin=0, vmax=1, fmt=‘.2f‘, linewidths=.5)
plt.title(‘Cramér\‘s V Correlation Matrix‘)
plt.show()

常见错误与解决方案

在实际开发中，你可能会遇到以下“坑”，这里我们提前给出解决方案：

无限值或 NaN 出现：

* 原因：如果某一列的所有值都相同（常量），或者某一列有太多缺失值，导致 scipy.stats.chi2_contingency 计算失败。

* 解决：在计算前检查列的唯一值数量。如果 unique count == 1，直接跳过或返回 0。

计算速度过慢：

* 原因：如果数据集非常大，且类别非常多（例如高基数的 ID 列），双重循环非常耗时。

* 解决：不要对 ID 列计算 Cramér‘s V。在特征选择阶段，先剔除明显无关的高基数列。

数据类型误判：

* 原因：有时候像“电话号码”或“邮编”这种数字，读入后被当作数值型处理，但它们本质是分类变量。

* 解决：使用 INLINECODE0127e265 强制转换这些列为字符串，或者在读取数据时指定 INLINECODE7800f3fd。

性能优化建议

当处理大规模数据集时，上述的双重循环可能会成为瓶颈。以下是两个优化建议：

仅针对特征子集计算：通常我们只关心特征与目标变量之间的相关性，或者是特征与特征之间的共线性。如果你有 50 个特征，你可以先计算它们与目标变量的 V 值，筛选出 Top 10，再计算这 10 个特征之间的内部矩阵，从而大大减少计算量。

使用 INLINECODEea0d48c9 加速：如果必须计算所有变量对，可以使用 Python 的 INLINECODE669208eb 库将核心计算函数编译为机器码，这能带来 10 倍以上的速度提升。

Cramér‘s V 的局限性

虽然 Cramér‘s V 很强大，但它也不是万能的：

它不区分正相关还是负相关：对于分类变量，方向性往往没有意义（比如“红色”和“蓝色”不存在正负关系），V 值只代表关联的强度。
对样本量敏感：在非常大的样本量下，即使是非常微弱的关联（统计显著但实际意义不大），也可能导致 V 值看起来“明显”不为 0。因此，解释结果时要结合业务实际意义。
忽略了有序信息：如果你的分类变量是有序的（例如“低”、“中”、“高”），使用 Spearman 相关性 可能会比 Cramér‘s V 更有效，因为它丢失了排序信息。

总结

在这篇文章中，我们深入探讨了如何使用 Pandas 和 SciPy 计算 Cramér‘s V 系数矩阵。我们学习了从单对变量计算到全矩阵构建的完整流程，并涵盖了偏差校正、可视化以及性能优化等实战技巧。

掌握这一技巧后，你在处理分类数据的探索性数据分析（EDA）时将更加游刃有余。你可以利用它来快速剔除冗余特征，或者发现那些隐藏在类别数据背后的有趣关联。

接下来，建议你尝试在自己的数据集上运行这段代码，看看能发现哪些意想不到的关联吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客