R语言进阶教程：深入理解并实战Jarque-Bera正态性检验

2026-02-06 20:34:49 0条评论 107次阅读 0人点赞

在日常的数据分析和统计建模工作中，我们经常面临一个基础但至关重要的问题：我手头的数据真的符合正态分布吗？这不仅是一个学术问题，更是决定我们能否安全地应用诸如线性回归、t检验等众多参数统计方法的前提。如果你正在使用 R 语言进行处理，那么 Jarque-Bera 检验（简称 JB 检验）是你武器库中必不可少的利器。

在这篇文章中，我们将深入探讨什么是 Jarque-Bera 检验，它背后的数学原理是什么，以及——最重要的是——我们如何在 R 语言中一步步执行它，并对结果进行专业的解释。无论你是数据科学的新手还是希望巩固基础知识的开发者，这篇文章都将为你提供清晰的指引和实用的代码示例。

1 什么是 Jarque-Bera 检验？
2 在进行检验前：数据的“体检”与准备
3 R 语言实战指南：步骤与代码
4 进阶技巧：手把手实现 JB 检验算法
5 常见问题与解决方案
6 总结与最佳实践

什么是 Jarque-Bera 检验？

简单来说，Jarque-Bera 检验是一种优度拟合检验，用于判断数据是否符合正态分布。与仅仅通过直方图或 QQ 图“肉眼”观察不同，JB 检验为我们提供了一个客观的统计量和一个具体的 p 值，帮助我们做出更严谨的判断。

为什么要关注偏度和峰度？

正态分布有其特定的形状特征，主要体现在两个方面：

偏度： 衡量分布的对称性。正态分布的偏度为 0。如果数据向左或向右拖尾，偏度就会偏离 0。
峰度： 衡量分布的尾部厚度和峰值尖锐度。正态分布的峰度为 3（或超额峰度为 0）。

Jarque-Bera 检验的核心思想就是：如果你的数据是正态的，那么它的偏度应该接近 0，峰度应该接近 3。 如果这两个指标偏离太远，JB 检验就会“报警”，告诉我们数据可能不是正态的。

假设检验的设定

在进行 JB 检验时，我们通常设定如下的假设：

零假设 (H0): 数据服从正态分布。
备择假设 (H1): 数据不服从正态分布。

如何解读结果？

这是初学者最容易困惑的地方。当你运行代码后，会得到一个 p 值。解读规则如下（通常以 0.05 为显著性水平 α）：

如果 p 值 < 0.05： 这是一个“坏消息”（如果你需要正态性）。意味着发生了小概率事件。我们有足够的证据拒绝零假设。结论是：数据不呈正态分布。
如果 p 值 ≥ 0.05： 这是一个“好消息”。意味着我们没有发现足够的证据来拒绝零假设。结论是：我们没有理由怀疑数据不符合正态分布（可以认为它是正态的）。

深入公式：统计量是如何计算的？

作为一个负责任的数据分析师，了解公式有助于我们理解检验的灵敏度。Jarque-Bera 统计量的计算公式如下：

$$ JB = \frac{n}{6} \left( S^2 + \frac{1}{4}(K – 3)^2 \right) $$

其中：

$n$ 是样本大小。
$S$ 是样本偏度。
$K$ 是样本峰度。

公式解读：

你可以看到，公式主要由两部分组成：偏度的平方 $(S^2)$ 和（峰度减 3）的平方。因为都是平方项，任何偏离正态的对称性（偏度）或峰值形态（峰度）都会导致 JB 值增大。

在零假设成立时，JB 统计量渐近服从自由度为 2 的卡方分布 ($\chi^2_2$)。这意味着，只要我们算出的 JB 值足够大，大到超过了卡方分布的临界值，对应的 p 值就会变小，从而导致我们拒绝正态性假设。

在进行检验前：数据的“体检”与准备

在迫不及待地运行 jarque.bera.test() 之前，让我们停下来思考一下数据准备的重要性。Garbage In, Garbage Out（垃圾进，垃圾出）是数据科学界的铁律。

1. 准确性的验证

确保你的数据加载正确，没有错误的字符或格式。如果 R 将数值读为了字符，检验就会报错或产生无意义的结果。

2. 处理缺失值

大多数 R 语言的检验函数（包括 tseries 包中的 JB 检验）默认不处理缺失值。如果你的数据中包含 INLINECODE6486ef1a，函数可能会直接报错。最佳实践是在检验前使用 INLINECODE5666179f 清洗数据，或使用参数处理缺失值。

3. 离群值的影响

虽然 JB 检验在大样本下比较稳健，但极端的离群值会剧烈影响偏度和峰度，从而导致 p 值极小。在解释结果时，不妨先画个箱线图看看是否有异常值。

R 语言实战指南：步骤与代码

在 R 语言中，进行 Jarque-Bera 检验最常用的方法是借助 tseries 扩展包。让我们一步步来操作。

步骤 1：安装并加载必要的包

首先，我们需要确保 INLINECODE898e067b 包已经安装在你的环境中。这个包提供了专门的时间序列分析函数，其中就包含我们需要的 INLINECODEf319f590。

# 安装 tseries 包（如果尚未安装）
# 你只需要运行一次这一行
install.packages("tseries")

# 加载包以便使用其功能
library(tseries)

步骤 2：准备模拟数据

为了演示，让我们生成两组数据：

标准正态分布数据（理论上应该通过检验）。
均匀分布数据（理论上应该无法通过检验，因为它太“平”了，不符合正态的钟形曲线）。

# 设置随机种子，保证结果可复现
set.seed(123)

# 创建数据集 1：生成 100 个服从标准正态分布的随机数
normal_data <- rnorm(100)

# 创建数据集 2：生成 100 个服从均匀分布的随机数
uniform_data <- runif(100)

步骤 3：执行检验并解读输出

现在，让我们对这两组数据分别应用 Jarque-Bera 检验，看看会发生什么。

#### 场景 A：检验正态分布数据

# 对正态数据执行检验
test_normal <- jarque.bera.test(normal_data)

# 打印结果对象
print(test_normal)

# 查看具体的详细信息
test_normal$statistic
test_normal$p.value

代码解析：

当你运行上述代码时，R 会返回一个 htest 对象。你会看到类似如下的输出（数值可能略有不同）：

X-squared: 这是计算出的 JB 统计量。对于正态数据，这个值通常比较小。
df: 自由度，固定为 2。
p-value: p 值。

预期结果： 因为 normal_data 确实是由正态分布生成的，p 值通常会大于 0.05。这意味着我们无法拒绝零假设。恭喜，数据通过了正态性检查！这就像医生告诉你体检各项指标正常一样。

#### 场景 B：检验非正态（均匀分布）数据

# 对均匀分布数据执行检验
test_uniform <- jarque.bera.test(uniform_data)

# 打印结果
print(test_uniform)

预期结果： 均匀分布的偏度为 0（对称），但峰度极低（分布呈矩形，没有正态分布那样的尖峰）。因此，JB 公式中的 $(K-3)^2$ 项会变得非常大，导致 JB 统计量很大，进而 p 值变得非常小（通常 < 0.05）。
解读： p 值很小，我们拒绝零假设。结论很明确：这组数据不服从正态分布。

进阶技巧：手把手实现 JB 检验算法

有时候，仅仅调用现成的函数是不够的。为了真正理解其工作原理，或者当你处于一个受限环境无法安装 tseries 包时，我们可以自己编写一个函数来计算 JB 统计量和 p 值。

这不仅是一个练习，更是深入理解统计量构造的好方法。

# 自定义函数：手动计算 Jarque-Bera 检验
custom_jb_test <- function(x) {
  # 1. 数据清洗：移除缺失值
  x <- x[!is.na(x)]
  n <- length(x)
  
  # 如果样本量太小，警告用户
  if (n < 3) {
    stop("样本量太小，无法进行计算")
  }
  
  # 2. 计算描述性统计量
  # 偏度
  # 这里的公式使用 e1071 包的标准化定义，或者直接用基础公式
  m2 <- mean((x - mean(x))^2) # 二阶矩
  m3 <- mean((x - mean(x))^3) # 三阶矩
  m4 <- mean((x - mean(x))^4) # 四阶矩
  
  S <- m3 / (m2^(3/2)) # 偏度计算公式
  K <- m4 / (m2^2)     # 峰度计算公式
  
  # 3. 计算 JB 统计量
  # 公式: JB = (n/6) * (S^2 + (K-3)^2/4)
  jb_stat <- (n / 6) * (S^2 + (1/4) * (K - 3)^2)
  
  # 4. 计算 p 值
  # 使用自由度为2的卡方分布计算右尾概率
  p_value <- pchisq(jb_stat, df = 2, lower.tail = FALSE)
  
  # 5. 返回结果列表
  return(list(
    Statistic = jb_stat,
    "p-value" = p_value,
    Skewness = S,
    Kurtosis = K,
    Method = "Jarque-Bera Test",
    Data_Name = deparse(substitute(x))
  ))
}

# 测试我们的自定义函数
my_result <- custom_jb_test(normal_data)
print(my_result)

深度解析：

在这个自定义函数中，我们做了几件关键的事情：

缺失值处理： 使用 INLINECODE9dcef08e 确保计算不会被 INLINECODEde30642b 打断。
中心矩计算： 我们手动计算了 $m3$（用于偏度）和 $m4$（用于峰度）。
p 值计算： 使用了 INLINECODE5505f0ed 函数，并设置 INLINECODE2fb07fa9 来获取统计量右侧的累积概率，这正是显著性检验所需要的。

你可以尝试将 INLINECODE83dfb69b 和 INLINECODE3d09c2c5 代入这个函数，你会发现计算出的 p 值与 tseries 包的结果非常接近（可能在极小数位有精度差异），这证明了我们理解了背后的算法。

常见问题与解决方案

在使用 R 进行 JB 检验时，你可能会遇到一些常见的问题。这里列出了几个典型的“坑”以及解决方案。

错误 1：数据中有 NAs

# 模拟包含缺失值的数据
bad_data <- c(1, 2, 3, NA, 5)
# jarque.bera.test(bad_data) # 这通常会报错

解决方案：

在调用函数前，始终清洗数据。

clean_data <- na.omit(bad_data)
jarque.bera.test(clean_data)

错误 2：样本量太小

虽然 JB 检验在理论上可以处理小样本，但它的功效（检测出非正态数据的能力）在小样本下很低。如果你的 n 只有 10 或 20，即使数据非正态，p 值也可能很大。

建议： 除非数据显著偏离正态，否则对于样本量 < 30 的数据，解释 p 值时要格外谨慎，最好结合 Shapiro-Wilk 检验（shapiro.test）一起参考，因为后者对小样本更敏感。

错误 3：忽视 p 值的连续性

不要把 0.05 当作魔法数字。如果 p 值是 0.051，不要武断地认为数据就是正态的；同样，如果 p 值是 0.049，也不必过度惊慌。统计学是关于概率的，不是非黑即白的。建议关注图形分析（直方图、QQ图）作为补充。

总结与最佳实践

在这篇文章中，我们不仅学习了如何用 R 语言运行 jarque.bera.test，更深入探讨了其背后的统计逻辑、偏度与峰度的作用，以及如何从零开始编写算法。

关键要点回顾：

Jarque-Bera 检验通过检查数据的偏度和峰度来评估正态性。
p 值 < 0.05 意味着拒绝正态性假设；p 值 >= 0.05 意味着没有证据拒绝正态性。
数据清洗至关重要：永远记得处理缺失值和异常值。
不要只看数字：将统计检验与可视化工具（如 QQ 图）结合使用，是专业数据分析的最佳实践。

接下来你该做什么？

打开你的 RStudio，加载你最近的一个项目数据集。试着选取一个数值型变量，运行一下 jarque.bera.test。看看结果是否符合你的预期？如果不符，试着画一张直方图找出原因。这就是我们提升数据分析直觉的最佳方式！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客