深入理解增强型迪基-福勒检验 (ADF)：从理论到 Python 实战指南

2026-02-02 09:42:01 0条评论 67次阅读 0人点赞

你好！作为一名时间序列分析的爱好者，我们都知道，拿到一组数据后的第一件事往往不是直接建模，而是要问自己一个核心问题：这组数据是平稳的吗？

如果数据像脱缰的野马一样忽上忽下（非平稳），我们建立的预测模型很可能会像建立在沙滩上的城堡一样岌岌可危。今天，我们将深入探讨时间序列分析中的“听诊器”——增强型迪基-福勒检验（Augmented Dickey-Fuller Test，简称 ADF）。

在这篇文章中，你不仅会了解到 ADF 检验背后的数学逻辑，更重要的是，我们将一起编写 Python 代码，通过多个实际案例，掌握如何准确判断数据的平稳性，并处理那些棘手的非平稳情况。让我们开始这段探索之旅吧！

1 为什么我们如此执着于“平稳性”？
2 什么是 ADF 检验？
3 Python 实战：从零开始实现 ADF
4 让数据“安分守己”：平稳化技术实战
5 深入解读：如何正确查看 ADF 结果
6 可视化：不要完全相信代码
7 拓展视野：ADF 与其他检验方法的对比
8 结论与关键要点

为什么我们如此执着于“平稳性”？

在时间序列建模中，平稳性 是一个核心假设。简单来说，如果一个时间序列是平稳的，意味着它的统计特性（如均值、方差）在时间推移下保持恒定。

想象一下，如果你要预测某家公司的股价，如果这组数据有一个明显的上升长期趋势，那么用昨天的数据去预测明天的数据就会产生巨大的偏差。大多数经典模型（如 ARIMA、VAR）都要求输入的数据是平稳的。如果我们将非平稳数据强行代入模型，结果通常是“伪回归”，即模型看起来拟合得很好，但实际上毫无预测能力。

为了解决这个问题，我们需要一把尺子来度量数据的平稳性，这就是 ADF 检验 大显身手的地方。

什么是 ADF 检验？

ADF 检验是迪基-福勒检验的增强版。你可能会问，为什么要“增强”？

基础的 DF 检验假设误差项是不相关的。但在现实世界的时间序列中，数据往往存在自相关性（即今天的数值受昨天、前天的影响）。ADF 检验通过在回归方程中加入滞后项，解决了高阶自相关的问题，使其成为目前应用最广泛的平稳性检验方法。

它是如何工作的？

ADF 检验的核心思想是验证序列中是否存在 单位根。

单位根存在：意味着序列是非平稳的，冲击的影响会永久持续，数据会随时间游走。
单位根不存在：意味着序列是平稳的，冲击的影响会随时间衰减，数据会围绕均值波动。

零假设与备择假设

在进行检验时，我们通常采用“反证法”逻辑：

零假设 (H₀)： 序列存在单位根（即它是 非平稳的）。
备择假设 (H₁)： 序列 不存在 单位根（即它是 平稳的）。

我们的目标是收集足够的证据来 拒绝 H₀。如果 p 值很小（通常小于 0.05），我们就有信心说：“嘿，这个序列很可能是平稳的！”

数学公式一览

虽然我们不打算陷入深奥的数学推导，但了解一下它的“长相”有助于理解。ADF 检验使用以下回归模型：

> \Delta yt = \alpha + \beta t + \gamma y{t-1} + \sum{i=1}^p \thetai \Delta y{t-i} + \epsilont

其中：

\Delta y_t 是序列的一阶差分。
\beta t 处理线性趋势。
\gamma y_{t-1} 是关键，如果 \gamma 显著不为 0（统计上显著），我们就可以拒绝单位根假设。
\sum \thetai \Delta y{t-i} 部分就是“增强”所在，它用于消除高阶自相关。

Python 实战：从零开始实现 ADF

光说不练假把式。让我们打开 Python，看看如何在实际场景中应用这个工具。我们将使用 statsmodels 库，它是 Python 中进行统计计量的标准库。

场景一：模拟数据的平稳性检验

首先，让我们人为生成两组数据：一组是带有明显趋势的非平稳数据（随机游走），另一组是平稳的随机噪声。我们将对比 ADF 检验的结果。

import numpy as np
import pandas as pd
from statsmodels.tsa.stattools import adfuller
import matplotlib.pyplot as plt

# 设置随机种子以保证结果可复现
np.random.seed(42)

# 1. 生成非平稳数据：随机游走
# 每一步都是上一步加上一个随机噪音
steps = np.random.normal(0, 1, 1000)
data_non_stationary = np.cumsum(steps) # 累加和形成游走

# 2. 生成平稳数据：白噪声
# 围绕0上下波动，没有趋势，方差恒定
data_stationary = np.random.normal(0, 1, 1000)

# 定义一个函数来执行 ADF 检验并打印美观的报告
def check_adf(time_series, series_name="Series"):
    ‘‘‘
    执行 ADF 检验并输出详细解读
    ‘‘‘
    result = adfuller(time_series, autolag=‘AIC‘)
    
    print(f"--- {series_name} ADF 检验结果 ---")
    print(f"1. ADF 统计量: {result[0]:.4f}")
    print(f"2. P-value: {result[1]:.4f}")
    print("3. 临界值:")
    for key, value in result[4].items():
        print(f"\t{key}: {value:.4f}")
    
    # 解读结果
    print("
[结论]:")
    if result[1] < 0.05:
        print(f"P-value ({result[1]:.4f}) = 0.05。我们无法拒绝零假设。")
        print(f"结论：该序列很可能是 **非平稳的**。")
    print("-" * 30 + "
")

# 检验非平稳序列
check_adf(data_non_stationary, "随机游走数据")

# 检验平稳序列
check_adf(data_stationary, "平稳白噪声数据")

解析输出结果

当你运行上面的代码时，你会发现：

随机游走数据：P 值通常很大（例如 0.6 甚至更高），ADF 统计量远大于临界值（如 -1 左右，大于 -2.86）。结论正如预期：无法拒绝零假设，数据非平稳。
平稳白噪声数据：P 值会非常小（接近 0.0），ADF 统计量是一个很小的负数（例如 -10 远小于 -3）。结论：拒绝零假设，数据是平稳的。

这验证了我们的直觉：没有漂移的纯随机噪声是平稳的，而累计的随机游走则是非平稳的。

让数据“安分守己”：平稳化技术实战

在实际工作中，我们拿到的数据往往是非平稳的。当 ADF 检验告诉我们数据不平稳时，我们该怎么办？别担心，我们有多种“武器”来修正它。

案例 2：处理航空乘客数据

这是一个经典的时间序列数据集，具有明显的趋势和季节性。让我们加载它并尝试将其平稳化。

import pandas as pd

# 模拟生成类似的趋势+季节性数据 (假设环境无法读取外部文件，我们自造数据)
# 创建一个既有上升趋势又有年度季节性的序列
idx = pd.date_range(start="1949-01", periods=144, freq="M")
trend = np.linspace(0, 50, 144)
seasonality = 10 * np.sin(np.linspace(0, 24 * np.pi, 144))
noise = np.random.normal(0, 2, 144)
ts_data = trend + seasonality + noise + 100

# 转换为 Series
series = pd.Series(ts_data, index=idx)

print("原始数据 ADF 检验:")
check_adf(series, "原始航空数据")

正如预期，原始数据的 P 值 > 0.05，它是非平稳的。现在，让我们尝试三种常用的变换技术。

技术 1：差分法

这是最常用的方法。我们用当前的值减去前一个值。这通常可以消除线性趋势。

# 一阶差分
diff_series = series.diff().dropna()

print("一阶差分后 ADF 检验:")
check_adf(diff_series, "一阶差分数据")

# 可视化对比
fig, ax = plt.subplots(2, 1, figsize=(10, 8))
ax[0].plot(series, label=‘Original‘)
ax[0].set_title(‘Original Non-Stationary Data‘)
ax[0].legend()

ax[1].plot(diff_series, label=‘1st Order Differencing‘, color=‘orange‘)
ax[1].set_title(‘After 1st Order Differencing‘)
ax[1].legend()
plt.tight_layout()
plt.show()

关键见解：通常，一阶差分就能解决大多数趋势问题。如果还不行，你可以尝试二阶差分 (diff().diff())，但要小心“过度差分”，这会增加数据的方差并引入不必要的复杂性。

技术 2：对数变换

如果数据的波动幅度随时间增大（即方差不稳定），对数变换可以帮助稳定方差。

# 对数变换
log_series = np.log(series)

print("对数变换后 ADF 检验 (注意：可能仍有趋势):")
check_adf(log_series, "对数变换数据")

你会发现，仅仅做对数变换往往不足以通过 ADF 检验，因为它主要解决方差问题，通常需要配合差分使用。

技术 3：Box-Cox 变换

这是对数变换的广义形式，能够自动寻找最佳变换参数。

from scipy import stats

# Box-Cox 变换
# 返回变换后的数据和最佳 lambda 参数
ts_data_positive = series + 1 # 确保所有值大于0
boxcox_series, lam = stats.boxcox(ts_data_positive)
boxcox_series = pd.Series(boxcox_series, index=series.index)

print(f"最佳 Lambda 参数: {lam:.4f}")
print("Box-Cox 变换后 ADF 检验:")
check_adf(boxcox_series, "Box-Cox 数据")

深入解读：如何正确查看 ADF 结果

在进行无数次 ADF 检验后，我发现新手容易在判断上犯错。这里有三个关键指标，你必须像侦探一样审视它们：

ADF 统计量：这是一个负数。记住这个规则：越“负”越好。如果它是 -4.5，那是强烈拒绝零假设的证据。如果它是 0.5，那你几乎可以肯定数据是非平稳的。你需要将这个值与下方的“临界值”进行比较。
P-value：这是最直观的指标。

* p <= 0.05：拒绝零假设。

* p > 0.05：无法拒绝零假设。

提示*：如果 p 值非常接近 0.05（比如 0.06），不要盲目拒绝。结合图形和其他指标判断，或者尝试更多的差分阶数。

临界值：在不同的置信水平（1%, 5%, 10%）下的阈值。如果 ADF 统计量小于 5% 临界值，说明我们在 95% 的置信度下认为序列是平稳的。

可视化：不要完全相信代码

虽然统计检验很客观，但我强烈建议你“目视检查”。画出原始数据、滚动均值和滚动标准差。

# 滚动统计量可视化函数
def plot_rolling_stats(timeseries, title="Rolling Mean & Std"):
    # 计算滚动均值和标准差
    rolmean = timeseries.rolling(window=12).mean()
    rolstd = timeseries.rolling(window=12).std()

    plt.figure(figsize=(10, 5))
    orig = plt.plot(timeseries, color=‘blue‘, label=‘Original‘)
    mean = plt.plot(rolmean, color=‘red‘, label=‘Rolling Mean‘)
    std = plt.plot(rolstd, color=‘black‘, label=‘Rolling Std‘)
    plt.legend(loc=‘best‘)
    plt.title(title)
    plt.show(block=False)

# 查看原始数据的滚动统计量
plot_rolling_stats(series, "原始数据 - 均值趋势明显")

# 查看差分后数据的滚动统计量
plot_rolling_stats(diff_series, "差分后数据 - 均值趋于常数")

在原始数据的图中，红线（滚动均值）会随着时间上升，这明显违反了平稳性的定义。在差分后的图中，红线应该大致在 0 附近水平波动，且黑线（标准差）也是水平的。这种直观的确认与 ADF 的数值结果相结合，才是最稳健的分析方法。

拓展视野：ADF 与其他检验方法的对比

ADF 并不是唯一的工具。有时，我们需要多种检验手段来交叉验证。

检验名称

零假设 (H₀)

侧重点

何时使用？

:—

ADF

序列有单位根 (非平稳)

检验趋势平稳性

最常用的首选检验。

KPSS

序列是平稳的

检验趋势平稳性

当 ADF 结果模棱两可时使用。如果 ADF 说非平稳，KPSS 也说非平稳，那就真有问题了。

Phillips-Perron (PP)

序列有单位根 (非平稳)

处理序列相关

当数据中存在异方差（方差波动）时，它比 ADF 更稳健。## 实际开发中的常见陷阱与解决方案

在多年的数据科学实践中，我总结了一些关于 ADF 检验的“坑”，希望能帮你节省调试时间。

1. 忽视 `autolag` 参数

adfuller 函数默认使用 AIC 准则自动选择滞后阶数。但在某些高频数据中，默认设置可能选择了过多的滞后项，降低了检验的效力。你可以手动尝试固定滞后数：

# 强制使用 4 个滞后阶数
result = adfuller(series, maxlag=4, regression=‘ct‘)

2. `regression` 参数选择错误

这个参数决定了检验方程中是否包含常数项或趋势项。选择错误会严重影响结果。

‘c‘ (默认)：仅包含常数项。用于数据没有明显时间趋势，但围绕一个非零均值波动的情况。
‘ct‘：包含常数项和线性趋势项。用于数据有明显上升或下降趋势时。
‘ctt‘：包含常数项和二次趋势项。极少使用。
‘nc‘：无常数无趋势。非常罕见，仅当你确定数据围绕 0 波动时使用。

最佳实践：先画图看数据。如果有趋势，用 INLINECODE0e177e34；如果围绕均值波动，用 INLINECODE8e212769。

3. 过度差分导致的数据失真

不要盲目进行二阶或三阶差分。过度差分会人为地引入数据中不存在的模式，并增加噪声。通常情况下，一阶差分就足够了。

结论与关键要点

时间序列分析是一门平衡艺术，而 ADF 检验是我们手中最重要的平衡器之一。回顾一下我们在本文中学到的内容：

平稳性至关重要：它是构建可靠 ARIMA 或其他预测模型的基础。
理解假设：ADF 假设序列有单位根，我们希望 P < 0.05 来拒绝它，证明平稳性。
代码不是万能的：结合 ADF 统计量、P 值和滚动统计量的可视化，才能得出最准确的结论。
学会变换：熟练掌握差分、对数变换和 Box-Cox 变换，能让你在面对混乱的真实世界数据时游刃有余。

下一步做什么？

既然你已经掌握了平稳性检验的方法，我建议你下一步尝试：

下载真实的股票或天气数据集，应用本文中的代码进行练习。
尝试结合 KPSS 检验 来交叉验证 ADF 的结果。
如果数据是平稳的，你可以自信地开始构建 ARIMA 模型 并进行预测了。

希望这篇指南能帮助你更自信地处理时间序列数据。如果你在实践中有任何问题或新的发现，欢迎随时交流！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

深入理解增强型迪基-福勒检验 (ADF)：从理论到 Python 实战指南

为什么我们如此执着于“平稳性”？

什么是 ADF 检验？

它是如何工作的？

零假设与备择假设

数学公式一览

Python 实战：从零开始实现 ADF

场景一：模拟数据的平稳性检验

解析输出结果

让数据“安分守己”：平稳化技术实战

案例 2：处理航空乘客数据

技术 1：差分法

技术 2：对数变换

技术 3：Box-Cox 变换

深入解读：如何正确查看 ADF 结果

可视化：不要完全相信代码

拓展视野：ADF 与其他检验方法的对比

1. 忽视 `autolag` 参数

2. `regression` 参数选择错误

3. 过度差分导致的数据失真

结论与关键要点

下一步做什么？

相关文章美国1G带宽/1T流量高速vps $17.99/年

深入理解增强型迪基-福勒检验 (ADF)：从理论到 Python 实战指南

为什么我们如此执着于“平稳性”？

什么是 ADF 检验？

它是如何工作的？

零假设与备择假设

数学公式一览

Python 实战：从零开始实现 ADF

场景一：模拟数据的平稳性检验

解析输出结果

让数据“安分守己”：平稳化技术实战

案例 2：处理航空乘客数据

技术 1：差分法

技术 2：对数变换

技术 3：Box-Cox 变换

深入解读：如何正确查看 ADF 结果

可视化：不要完全相信代码

拓展视野：ADF 与其他检验方法的对比

1. 忽视 autolag 参数

2. regression 参数选择错误

3. 过度差分导致的数据失真

结论与关键要点

下一步做什么？

相关文章美国1G带宽/1T流量高速vps $17.99/年

1. 忽视 `autolag` 参数

2. `regression` 参数选择错误