如何使用 R 语言进行增强型 Dickey-Fuller 检验：从理论到实战

2026-02-17 15:34:53 0条评论 86次阅读 0人点赞

在处理时间序列数据时，我们经常会遇到这样的困惑：手中的数据究竟是平稳的，还是包含某种随时间变化的趋势？这不仅关乎数据的视觉呈现，更直接影响到我们后续构建的 ARIMA 模型或机器学习模型的准确性。为了解开这个谜题，统计学家们为我们提供了一把“金钥匙”——单位根检验。而在众多单位根检验中，增强型 Dickey-Fuller 检验（Augmented Dickey-Fuller Test，简称 ADF 检验）无疑是最为经典且广泛应用的一种。

在这篇文章中，我们将深入探讨如何在 R 语言中执行 ADF 检验。我们不仅会解释其背后的统计学原理，还会通过丰富的代码示例，带你一步步完成从数据创建、可视化到最终假设检验的全过程。无论你是数据分析的新手，还是寻求巩固理论的老手，我相信这篇文章都能为你提供实用的见解。

什么是平稳性？为什么它如此重要？

在正式进入 ADF 检验之前，让我们先花一点时间明确一下“平稳性”的概念。直观地说，如果一个时间序列处于“静止状态”，即我们所说的平稳序列，它应该具备以下特征：

无趋势：数据没有明显的长期上升或下降趋势。
恒定方差：数据的波动范围（离散程度）随时间推移保持一致，不会忽大忽小。
恒定自相关结构：数据点之间的相关性只取决于时间间隔，而取决于具体的时间点。

如果不满足这些条件，我们通常称之为非平稳序列。非平稳数据是非常棘手的，因为它们往往包含“伪回归”的风险。简单来说，如果我们在非平稳数据上进行回归分析，可能会得到两个完全无关的变量之间具有高度相关性的荒谬结论。因此，在进行任何深度建模之前，通过 ADF 检验来确认数据的平稳性是我们必须完成的第一步。

ADF 检验的核心：原假设与备择假设

ADF 检验是一种典型的统计假设检验。理解它的逻辑，关键在于弄清楚我们要“挑战”什么。在这个过程中，涉及到以下两个核心假设：

H0（原假设）： 该时间序列是非平稳的。或者用统计学术语来说，它存在一个单位根。这意味着数据具有某种依赖于时间的结构（如趋势），且不会随时间推移保持恒定的统计特性。
HA（备择假设）： 该时间序列是平稳的。这意味着数据没有单位根，表现出恒定的统计特性。

决策逻辑非常简单：

当我们执行检验后，会得到一个 p 值。如果 p 值小于我们设定的显著性水平（通常是 α = 0.05），这意味着我们观察到了一个“小概率事件”。在这种情况下，我们有足够的信心拒绝 H0（原假设），从而得出结论：该时间序列是平稳的。反之，如果 p 值很大（大于 0.05），我们就无法拒绝 H0，只能认为数据是非平稳的。

第一步：准备环境与生成模拟数据

为了演示如何在 R 语言中执行这一过程，首先我们需要准备一些数据。在实际工作中，你会读取 CSV 文件或数据库连接，但在学习阶段，创建一些可控的模拟数据能帮助我们更好地理解。

让我们开始编写代码。首先，我们需要确保 R 环境中安装了必要的包。这里我们主要使用 INLINECODE8abdee7f 包，它提供了非常便捷的 INLINECODE176e9178 函数。

# 首先，让我们加载必要的库
# 如果尚未安装，请先运行 install.packages("tseries")
library(tseries)

# 步骤 1：创建一个简单的时间序列数据向量
# 这里的数值是随机选取的，用于演示目的
vect <- c(3, 8, 2, 1, 3, 3, 9, 8, 7, 3, 10, 3, 4)

# 打印数据以检查
print("我们的原始数据向量：")
print(vect)

在上述代码中，我们创建了一个包含 13 个数据点的向量 vect。这代表我们在时间 t=1 到 t=13 之间的观察值。

第二步：数据可视化——肉眼可见的洞察

在 rushing into（急于进行）统计检验之前，作为经验丰富的数据分析师，我们通常会先画图看一看。可视化往往能直观地揭示数据的趋势或季节性。让我们使用 R 基础绘图系统来可视化我们的数据。

# 步骤 2：可视化数据
# type=‘l‘ 表示绘制线条图，这对于展示时间序列连续性非常重要
# col=‘blue‘ 和 lwd=2 让图表更美观
plot(vect, 
     type = ‘l‘, 
     main = "原始时间序列可视化", 
     xlab = "时间索引", 
     ylab = "数值", 
     col = "blue", 
     lwd = 2)

# 添加网格线辅助阅读
grid()

实用见解： 当你运行这段代码时，仔细观察生成的图表。如果线条看起来像是在围绕一个固定的均值上下波动，且波动幅度大致相同，那么它很可能是平稳的。反之，如果线条看起来像是在爬坡（上升趋势）或滑坡（下降趋势），或者波动的“喇叭口”越来越大（异方差），那么它大概率是非平稳的。当然，肉眼的判断带有主观性，这就是为什么我们需要严谨的 ADF 检验。

第三步：执行增强型 Dickey-Fuller 检验

现在到了最关键的时刻。让我们正式调用 R 中的函数来进行检验。我们将使用 INLINECODE8d3b5fb2 库中的 INLINECODE0be32dab 函数。

函数语法解析：
adf.test(vect)

这里的 INLINECODE8a90b7ba 参数是你想要检验的数值向量。INLINECODEbc488d5a 函数会自动处理检验内部的复杂性，包括选择合适的滞后阶数，以修正误差项中的序列相关性。

# 步骤 3：执行增强型 Dickey-Fuller 检验
# 我们将使用刚才创建的 vect 数据

# 导入库（确保已加载）
library(tseries)

# 定义数据
vect <- c(3, 8, 2, 1, 3, 3, 9, 8, 7, 3, 10, 3, 4)

# 执行检验
# 注意：ADF 检验要求数据长度必须大于 7，且不能包含缺失值
result <- adf.test(vect)

# 打印结果
print(result)

#### 深入解读输出结果

运行上述代码后，R 会输出一系列统计指标。让我们详细解读一下这些数字背后的含义（以下结果基于典型输出示例）：

Dickey-Fuller (检验统计量): 这是一个负数（例如 -1.6846）。记住，这个数字越负（越小），意味着我们越有信心拒绝原假设。通常，如果它比临界值更小，我们就拒绝 H0。
Lag order (滞后阶数): 这是模型自动选择的滞后长度，用于消除残差的自相关性。
p-value (p 值): 这是我们做决策的依据。假设我们的输出显示 p 值为 0.6925。

结论分析：

在我们的例子中，p 值 = 0.6925。

由于 p 值 (0.6925) 远远大于显著性水平 α (0.05)，我们无法拒绝原假设。

这意味着：该时间序列是非平稳的。

这听起来可能有点反直觉，但这就是统计学严谨的地方。即便我们从图上觉得它可能不是很“陡峭”，但统计检验告诉我们，它内部的某种结构（单位根）使其具有非平稳性。用更通俗的话说，它具有某种依赖于时间的结构，并没有表现出那种“无论何时看，统计特性都一样”的稳定特质。

进阶实战：生成更多案例以加深理解

仅仅看一个例子可能还不够。为了让你真正掌握这个技能，让我们编写一个脚本，对比平稳序列和非平稳序列在 ADF 检验下的不同表现。

#### 案例 1：带有明显趋势的非平稳数据

# 案例 1：线性趋势数据（非平稳）
library(tseries)

# 设置随机种子以保证结果可复现
set.seed(123)

# 生成一个带有强线性趋势的数据
trend_data <- 1:50 + rnorm(50, mean = 0, sd = 2)

# 绘图观察
par(mfrow=c(1,2)) # 将画布分为两列
plot(trend_data, type='l', main="趋势数据可视化", col="red")

# 执行 ADF 检验
cat("
--- 案例 1 检验结果 ---
")
print(adf.test(trend_data))

预期结果： 你会发现 p 值非常大（通常接近 1），这强烈证实了它是不平稳的。这是因为线性趋势是单位根过程的一个典型特征。

#### 案例 2：纯随机平稳数据（白噪声）

# 案例 2：白噪声数据（平稳）

# 生成一组服从标准正态分布的随机数
stationary_data <- rnorm(50, mean = 0, sd = 1)

# 绘图观察
plot(stationary_data, type='l', main="平稳数据可视化", col="green")

# 执行 ADF 检验
cat("
--- 案例 2 检验结果 ---
")
print(adf.test(stationary_data))

预期结果： 这里的 p 值应该非常小（远小于 0.05）。这将使我们能够有力地拒绝原假设，从而得出结论：该序列是平稳的。

常见问题与解决方案

在实际操作中，你可能会遇到一些令人头疼的问题。这里我列出了几个最常见的错误及其解决方案：

1. 错误提示："sample size must be greater than 7"

原因： ADF 检验依赖于样本方差的计算，如果数据点太少（少于 7 个），统计推断将失效。
解决： 确保你的时间序列数据至少有 8 个或更多的观测点。

2. p 值恰好在 0.05 附近

场景： p = 0.06 或 p = 0.04。
建议： 不要机械地只看 0.05 这个阈值。结合图表（PP图、时序图）进行综合判断。如果是边缘情况，可能需要收集更多数据，或者尝试使用 KPSS 检验作为补充验证。

3. 数据存在缺失值

原因： adf.test() 默认不处理缺失值。
解决： 使用 INLINECODEb155d5b9 或 INLINECODE0b5121a4 在运行检验前清洗数据。

性能优化与最佳实践

虽然 INLINECODEa92df9f7 包中的 INLINECODE42fd15be 非常方便，但如果你正在处理海量数据或需要频繁建模，了解其背后的机制会对你有所帮助：

滞后阶数的选择：INLINECODEe6e2e219 会自动计算最佳的滞后阶数（基于 AIC 准则）。但在更底层的 INLINECODE1d8b52fb 包中，你可能需要手动指定。不同的滞后阶数可能会导致结果略有不同。
检验类型的选择：标准的 ADF 检验有三种变体：仅截距、截距加趋势、无截距无趋势。INLINECODE4931d227 通常默认包含截距和趋势项，这对于大多数宏观时间序列是合适的。但如果你确定你的数据（例如收益率）理论上不应该有趋势，强制包含趋势项可能会降低检验的效力。在这种情况下，你可能需要探索更灵活的 INLINECODEbc72ddab 包。

结语

今天，我们学习了如何在 R 语言中利用增强型 Dickey-Fuller 检验来诊断时间序列的平稳性。我们不仅掌握了 adf.test() 函数的使用，还深入理解了原假设、p 值以及它们在数据科学决策中的作用。

如果你发现你的数据是非平稳的，请不要气馁。这是时间序列分析中的常态！接下来的步骤通常是进行差分——即计算当前值与前一个值的差值，然后再对新序列进行 ADF 检验，直到它变得平稳为止。这正是构建 ARIMA 模型中“AR”和“I”部分的基础。

现在，打开你的 RStudio，加载你自己的数据，亲自试一试这个强大的检验吧。如果你在操作过程中有任何疑问，或者想分享你的实验结果，欢迎随时交流。祝你在数据分析的道路上越走越远！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客