深入浅出双重差分法（DiD）：从理论到 Python 实战全指南

2026-02-06 15:15:37 0条评论 68次阅读 0人点赞

在数据科学和因果推断的领域中，我们经常面临这样一个棘手的问题：如何在一个无法进行随机对照试验（RCT）的世界里，准确地评估某项政策、商业活动或干预措施的真实效果？

想象一下，你是一家电商公司的数据分析师。老板想知道：“我们上个月针对特定用户群推出的新会员优惠，到底带来了多少额外的销售增长？”这听起来很简单，但你不能简单地比较“会员”和“非会员”的消费差异，因为他们本身就可能不同（比如会员本身就更爱花钱）。这就是著名的“选择性偏差”问题。

在这篇文章中，我们将深入探讨一种广泛使用的统计技术——双重差分法。我们会从它的核心逻辑出发，理解“平行趋势”这一关键假设，并通过 Python 代码从零开始实现它。无论你是处理经济学数据还是 A/B 测试，DiD 都是你工具箱中不可或缺的利器。

什么是双重差分法（DiD）？

双重差分法是一种旨在模拟随机对照试验效果的观察性研究技术。它的核心思想非常直观：通过比较处理组和对照组在干预前后结果变化的差异，来剔除那些不随时间变化的组间差异，以及那些不随组别变化的时间趋势。

让我们用通俗的数学语言来拆解一下这个过程。假设我们想估算某个政策的处理效应：

第一次差分（时间维度）： 我们先看处理组在政策前后的变化，以及对照组在政策前后的变化。这帮助我们剔除了所有群体随时间自然变化的趋势（比如季节性因素、宏观经济波动）。
第二次差分（组别维度）： 我们将处理组的变化减去对照组的变化。这一步帮助我们剔除了组间原本存在的差异。

> 核心公式：

> \[ \text{DiD Effect} = (\bar{y}{\text{treat, post}} – \bar{y}{\text{treat, pre}}) – (\bar{y}{\text{control, post}} – \bar{y}{\text{control, pre}}) \]

灵魂假设：平行趋势

在使用 DiD 之前，我们必须理解它的“阿喀琉斯之踵”——平行趋势假设。

这个假设的核心是：在没有干预的情况下，处理组和对照组的变化趋势应该是平行的。 也就是说，虽然两组的绝对水平可能不同（比如一线城市和三线城市的 GDP 水平），但它们随时间演变的轨迹（增长率、波动方向）应该是一致的。

如果违反了这个假设，比如处理组本身就在加速上升，而对照组在停滞，那么我们计算出的 DiD 效应就不仅仅是政策带来的，而是包含了组间固有的趋势差异。在后续的 Python 实践中，我们会教你如何通过可视化来检验这一假设。

数学模型与回归方程

虽然简单的减法可以算出 DiD 值，但在实际分析中，我们通常使用线性回归模型来实现。这样做的好处是我们可以直接获得标准误、P 值等统计指标，还能方便地添加其他控制变量。

标准的 DiD 回归方程如下：

\[ Y{it} = \beta0 + \beta1 \text{Treat}i + \beta2 \text{Post}t + \beta3 (\text{Treat}i \times \text{Post}t) + \epsilon{it} \]

其中：

$\beta_0$ (截距)： 对照组在处理前的基准水平。
$\beta_1$ ( Treat 系数)： 处理组和对照组在处理前的固有差异（如果不平行，这里就会有问题）。
$\beta_2$ ( Post 系数)： 时间带来的自然变化（即对照组随时间发生的变化）。
$\beta_3$ (交互项系数)： 这就是我们最关注的 DiD 估算值！ 它代表了处理带来的净效应。

Python 实战演练

光说不练假把式。接下来，让我们使用 Python 和 statsmodels 库，通过几个不同的场景来彻底掌握 DiD 的实现。

#### 场景一：基础 DiD 分析（入门级）

首先，我们构造一个简单的数据集。假设我们在某市进行了营销活动，选择了部分区域作为处理组，其他作为对照组。

import pandas as pd
import statsmodels.formula.api as smf

# 1. 构造示例数据
# 为了让结果更稳健，我们稍微扩大一点样本量
data = {
    ‘group‘: [‘control‘] * 10 + [‘treat‘] * 10,  # 每组10个样本
    ‘time‘: [‘pre‘] * 5 + [‘post‘] * 5 + [‘pre‘] * 5 + [‘post‘] * 5, # 简单的时间排列
    ‘outcome‘: [10, 12, 11, 13, 12,  # control pre (avg ~11.6)
                14, 15, 16, 15, 17,  # control post (avg ~15.4) -> +3.8 change
                20, 22, 21, 23, 22,  # treat pre (avg ~21.6) -> 比 control 高10
                30, 33, 31, 34, 32]  # treat post (avg ~32.0) -> +10.4 change
}

# 真实的 DiD 效应应该是: (10.4 - 3.8) = 6.6

df = pd.DataFrame(data)

# 2. 数据预处理：生成虚拟变量
df[‘D‘] = df[‘group‘].apply(lambda x: 1 if x == ‘treat‘ else 0)
df[‘T‘] = df[‘time‘].apply(lambda x: 1 if x == ‘post‘ else 0)
# 交互项：DiD 的核心
df[‘D_T‘] = df[‘D‘] * df[‘T‘]

print("数据集预览：")
print(df.head(3))
print("...
")

# 3. 运行 OLS 回归
# 格式：因变量 ~ 自变量1 + 自变量2 + 交互项
model = smf.ols(‘outcome ~ D + T + D_T‘, data=df).fit()

# 4. 解读结果
print(model.summary().tables[1])

代码深度解析：

在这个例子中，我们手动创建了 INLINECODE4cb1aacd（处理组标识）和 INLINECODEb144dfb7（时间标识）变量。最关键的一步是 INLINECODEaaef1c6a。在回归模型中，当 INLINECODE2be4171e 且 T=1 时（即处理组在处理后），这个交互项才会起作用，它捕捉到的正是超出自然趋势（由 T 捕捉）和组间差异（由 D 捕捉）之外的额外变化。

查看回归结果的 D_T 系数，它应该非常接近我们预设的 6.6。

#### 场景二：实际数据分析与可视化（进阶级）

在真实场景中，我们通常不会手动生成 0/1 变量，而是直接利用公式的便捷性。更重要的是，我们需要画图来验证平行趋势。

import matplotlib.pyplot as plt
import numpy as np

# 1. 创建更复杂一点的模拟数据
def generate_did_data(n_per_group=50, effect_size=5):
    np.random.seed(42)
    # 对照组基线
    control_pre = np.random.normal(20, 2, n_per_group)
    # 对照组后测 (随时间自然增长 +2)
    control_post = control_pre + np.random.normal(2, 1, n_per_group)
    
    # 处理组基线 (比对照组高 5)
    treat_pre = control_pre + 5 
    # 处理组后测 (自然增长 +2 + 政策效应 +5)
    treat_post = treat_pre + 2 + effect_size + np.random.normal(0, 1, n_per_group)
    
    df = pd.DataFrame({
        ‘outcome‘: np.concatenate([control_pre, control_post, treat_pre, treat_post]),
        ‘group‘: [‘control‘]*n_per_group*2 + [‘treat‘]*n_per_group*2,
        ‘time‘: ([‘pre‘]*n_per_group + [‘post‘]*n_per_group)*2
    })
    return df

df_real = generate_did_data()

# 2. 使用公式 API（更简洁，不需要手动创建交互项）
# C(group, Treatment(reference=‘control‘)): 指定对照组为基准
# C(time, Treatment(reference=‘pre‘)): 指定 pre 为基准
model_real = smf.ols(‘outcome ~ C(group, Treatment(reference="control")) * C(time, Treatment(reference="pre"))‘, data=df_real).fit()

print("进阶模型摘要：")
# 简单打印关键系数
print(f"DiD 估算值 (处理效应): {model_real.params[‘C(group, Treatment(reference="control")[T.treat]:C(time, Treatment(reference="pre"))[T.post]:‘]:.4f}")
print(f"P 值: {model_real.pvalues[‘C(group, Treatment(reference="control")[T.treat]:C(time, Treatment(reference="pre"))[T.post]:‘]:.4f}")

# 3. 平行趋势可视化
means = df_real.groupby([‘group‘, ‘time‘])[‘outcome‘].mean().reset_index()

plt.figure(figsize=(8, 5))
for grp in [‘control‘, ‘treat‘]:
    data_grp = means[means[‘group‘] == grp]
    # 标记点：pre=0, post=1
    plt.plot([0, 1], data_grp[‘outcome‘], marker=‘o‘, label=grp)

plt.title(‘DiD 平行趋势可视化‘)
plt.xticks([0, 1], [‘处理前‘, ‘处理后‘])
plt.ylabel(‘结果变量均值‘)
plt.legend()
plt.grid(True, linestyle=‘--‘, alpha=0.7)

# 添加注释说明平行趋势
plt.annotate(‘预处理期间的平行趋势‘, xy=(0, 21), xytext=(0, 26),
            arrowprops=dict(facecolor=‘black‘, shrink=0.05))

plt.show()

这个例子展示了如何使用 * 符号在公式中自动生成交互项和主效应，这比手动编码更专业，也更不容易出错。通过图表，你可以直观地看到在 Time=0 时，两条线虽然水平不同，但是接近平行的（斜率一致），这满足了我们的核心假设。

#### 场景三：添加控制变量（专家级）

在现实世界的观察性数据中，单纯的双组比较往往不够，我们需要控制其他混淆变量（如用户的年龄、收入、地区等）。

# 扩展数据集，添加一个混淆变量 ‘age‘
df_expert = generate_did_data(n_per_group=200)
df_expert[‘age‘] = np.random.randint(18, 60, size=len(df_expert))

# 模型中加入控制变量
# 公式： outcome ~ group * time + age
model_cv = smf.ols(‘outcome ~ C(group, Treatment(reference="control")) * C(time, Treatment(reference="pre")) + age‘, data=df_expert).fit()

print("含控制变量的模型摘要：")
print(model_cv.summary())

实用见解： 添加控制变量（如 age）可以减少回归的残差方差，从而使估计更精确（标准误更小）。前提是这些控制变量不受处理本身的影响（比如年龄就不受政策影响，但“收入”可能会受影响，使用时需谨慎）。

常见错误与最佳实践

在应用 DiD 时，我们踩过不少坑，这里分享几点经验：

忽略序列相关性： 标准 OLS 假设误差项是独立的，但在面板数据中，同一个体在不同时间的误差往往是相关的。如果不修正，标准误会偏小，导致你容易得出“显著”的结论。

解决方案：* 使用聚类标准误。在 INLINECODE91ff1127 中，你可以使用 INLINECODE8edd8e6a 和 cov_kwds={‘groups‘: df[‘unit_id‘]} 来实现。

样本量不平衡： 如果处理组和对照组的数量差异巨大，或者时间点不一致，简单的 OLS 可能会有偏差。

解决方案：* 确保数据清洗步骤正确，必要时使用加权回归。

预检验的重要性： 不要只跑回归就完事了。务必画出处理前几期的趋势图。如果处理前趋势就不平行，你可能需要考虑使用更高级的合成控制法。

结语

今天，我们一起探索了双重差分法（DiD）的方方面面。从基本的数学逻辑到 Python 代码实现，再到平行趋势假设的验证和高级的控制变量调整，你现在拥有了处理因果推断问题的坚实基础。

DiD 并不是万能药，它的有效性高度依赖于“如果没有干预，结果会如何”这一反事实假设的合理性。但是，在无法进行实验的条件下，它依然是我们手中最强有力的武器之一。

下一步，建议你尝试找一些公开的经济数据集（比如最小工资法对就业的影响数据），亲自动手跑一遍代码。只有当你亲手画出那条平行的趋势线，并看到交互项显著时，你才能真正体会到数据科学的魅力。

祝你分析愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客