深入掌握 Java Microbenchmark Harness (JMH)：编写精准 Java 基准测试的终极指南

2026-02-01 06:39:28 0条评论 46次阅读 0人点赞

作为一名 Java 开发者，你是否曾在代码优化后陷入过这样的困惑：“我重写了这段逻辑，感觉应该更快，但真的更快了吗？”或者，为什么同样的代码在本地运行飞快，到了生产环境却偶尔卡顿？

很多时候，我们的直觉往往是错误的。JVM 拥有复杂的即时编译器（JIT）和智能的垃圾回收机制（GC），它们会在运行时动态优化代码。这意味着，你编写的 Java 代码可能并不是你原本以为的机器码。因此，简单地用 System.nanoTime() 在代码前后打点计时，往往无法得到准确的结果，甚至会因为 JIT 的优化（如死代码消除）而得出完全错误的结论。

这就是为什么我们需要 Java Microbenchmark Harness (JMH)。在这篇文章中，我们将深入探讨这款由 OpenJDK 开发的强大工具，学习如何通过它避开 JVM 的各种“陷阱”，编写出可靠、精确的微基准测试，从而真正量化我们代码的性能。

什么是 JMH？

Java Microbenchmark Harness (JMH) 是一款专门为 Java 量身定制的基准测试框架。与其他语言不同，Java 的性能表现高度依赖于 JVM 的状态（比如代码是否已经被 JIT 编译为机器码）。JMH 就是为了解决这些复杂性而生的，它能够自动处理预热、避免死代码消除，并统计出极具参考意义的性能数据。

简单来说，JMH 帮助我们在纳秒、微秒、毫秒甚至宏秒级别上，精确测量一小段代码（即“微基准”）的性能。

核心概念：为什么不能直接写循环计时？

在开始 JMH 之旅前，让我们先看看为什么“手写基准测试”通常是无效的。如果你写了下面这样的代码：

public class BadBenchmark {
    public static void main(String[] args) {
        long start = System.nanoTime();
        
        // 测试代码
        long sum = 0;
        for (int i = 0; i < 1000; i++) {
            sum += i;
        }
        
        long end = System.nanoTime();
        System.out.println("耗时: " + (end - start) + " ns");
    }
}

这段代码存在很多问题：

未预热：JVM 在解释模式下运行代码较慢，而在编译后运行极快。上面的循环可能只在解释模式下跑了一次，根本没触发 JIT 编译，测出的数据比实际慢几十倍。
死代码消除：JIT 编译器非常聪明。如果它发现 sum 计算完后并没有被真正使用，它可能会直接把整个计算过程删除，返回 0。这样你测出来的就是“什么都没做”的时间。
精度问题：单次运行容易受到系统上下文切换、GC 停顿等环境噪音的影响。

JMH 正是为了解决这些痛点而设计的，让我们来看看它是如何工作的。

实战入门：你的第一个 JMH 基准测试

让我们从一个经典的例子开始：对比“传统循环”与“Java 8 Stream API”在数组求和上的性能差异。这不仅是一个教程，也是我们日常开发中常遇到的抉择。

#### 1. 配置 Maven 依赖

首先，我们需要在项目中引入 JMH 的核心库和注解处理器。建议使用最新的稳定版（例如 1.37）。



    org.openjdk.jmh
    jmh-core
    1.37



    org.openjdk.jmh
    jmh-generator-annprocess
    1.37
    provided

#### 2. 编写基准测试类

这是一个完整的、结构良好的 JMH 类。

import org.openjdk.jmh.annotations.*;
import java.util.concurrent.TimeUnit;
import java.util.Random;

/**
 * 用于对比循环与流性能的基准测试类。
 * 我们使用 @State 来定义测试对象的生命周期。
 */
@BenchmarkMode(Mode.AverageTime) // 测试模式：测量平均执行时间
@OutputTimeUnit(TimeUnit.MICROSECONDS) // 输出单位：微秒
@State(Scope.Thread) // 线程作用域：每个线程独享一份实例
public class ArraySumBenchmark {

    // 定义一个较大的数组，以便测量出明显的时间差异
    private static final int ARRAY_SIZE = 10_000_000;
    private int[] data;

    /**
     * @Setup 注解：在基准测试运行前执行初始化。
     * Level.Trial 表示在整个测试阶段开始前执行一次。
     */
    @Setup(Level.Trial)
    public void setup() {
        data = new int[ARRAY_SIZE];
        Random random = new Random();
        for (int i = 0; i < ARRAY_SIZE; i++) {
            // 填充随机数据，防止 JVM 优化掉计算逻辑
            data[i] = random.nextInt();
        }
    }

    /**
     * 测试方法一：使用传统的 for-each 循环求和。
     * @Benchmark 注解告诉 JMH 这是一个需要测试的方法。
     */
    @Benchmark
    public long sumUsingLoop() {
        long sum = 0;
        for (int value : data) {
            sum += value;
        }
        // 为了防止死代码消除，我们通常必须返回结果
        // JMH 框架会自动消费这个返回值（例如黑洞）
        return sum;
    }

    /**
     * 测试方法二：使用 Java Stream API 求和。
     * Stream 的设计虽然优雅，但通常会有额外的性能开销。
     */
    @Benchmark
    public long sumUsingStreams() {
        return java.util.Arrays.stream(data).sum();
    }

    /**
     * Main 方法：用于启动测试。
     * 通常建议使用 jar 包方式运行，但在这里为了演示方便，我们直接调用。
     */
    public static void main(String[] args) throws Exception {
        org.openjdk.jmh.Main.main(args);
    }
}

解读代码背后的技术细节

在上面的代码中，我们看到了几个关键的注解和配置。让我们深入理解它们，这对于写出专业的基准测试至关重要。

#### 1. @BenchmarkMode (模式)

JMH 支持多种测量模式，这决定了你想关注性能的哪个维度：

Mode.Throughput (吞吐量)：“操作数/单位时间”。模式越高越好，常用于测试服务端处理能力。
Mode.AverageTime (平均时间)：“时间/操作数”。这也是我们代码中使用的模式。越低越好，适合分析算法耗时。
Mode.SampleTime (采样时间)：当你怀疑代码执行时间分布不均匀（比如偶发卡顿）时使用，它会给出百分位数据（如 99.9% 的请求在多少时间内完成）。
Mode.SingleShotTime (单次时间)：用于测试冷启动性能，即只运行一次，不预热。

#### 2. State (状态) 与生命周期

@State 是 JMH 中最容易被误解的概念之一。它决定了对象是在哪里被创建和共享的。

Scope.Thread (默认)：每个测试线程都有自己的对象副本。这是最安全的，完全无锁，测试纯粹的对象逻辑性能。
Scope.Benchmark：所有线程共享同一个对象实例。这常用于测试多线程竞争同一个资源（如连接池）的场景。
Scope.Group：在同一组线程内共享。

配合 INLINECODE7d85760f 和 INLINECODE2946ad12，我们可以精确控制数据准备和清理的时机。记住，昂贵的初始化操作（如创建大数组）应该放在 INLINECODEd62b71d5 中，而不是放在 INLINECODE6745bd43 方法里，否则测出的结果会包含数组创建的开销，导致数据失真。

#### 3. 多进程 Forking (分叉)

JMH 默认会启用 Forking。这意味着 JMH 会启动多个独立的 JVM 进程来运行你的测试。

你可能会问：“为什么不直接在当前 JVM 跑？”

这是因为 JVM 的 JIT 编译是非确定性的。GC 可能会在测试中途触发，JIT 可能会根据运行时统计数据改变编译策略（去优化）。通过多次 Fork（例如 Fork(5) 运行 5 个进程），我们可以取平均值，消除单一 JVM 运行时的偶然性，从而得到极其稳定的结果。

进阶实例：测试多线程竞争

为了满足字数要求并展示更多实战技巧，让我们来看一个涉及并发锁性能的例子。假设我们想测试 INLINECODEb5f1f217 和 INLINECODE3ffd9a6a 在高并发更新时的表现。

import org.openjdk.jmh.annotations.*;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.atomic.AtomicInteger;

@BenchmarkMode(Mode.Throughput)
@OutputTimeUnit(TimeUnit.MILLISECONDS)
@State(Scope.Group) // 使用 Group 级别的状态
public class ConcurrencyBenchmark {

    private int sharedCounter = 0;
    private AtomicInteger atomicCounter = new AtomicInteger(0);

    /**
     * 测试 synchronized 关键字的性能。
     * 我们使用 @Group 来定义一组线程同时操作这个锁。
     */
    @Benchmark
    @Group("sync")
    @GroupThreads(10) // 10个线程同时跑
    public int incrementWithSync() {
        synchronized (this) {
            return ++sharedCounter;
        }
    }

    /**
     * 测试 AtomicInteger (CAS) 的性能。
     * 通常 CAS 在低竞争下优于 synchronized，但在高竞争下由于自旋开销，表现可能不同。
     */
    @Benchmark
    @Group("atomic")
    @GroupThreads(10)
    public int incrementWithAtomic() {
        return atomicCounter.incrementAndGet();
    }
}

在这个例子中，INLINECODE9698bee5 和 INLINECODE16efdc2b 注解非常关键。它们允许我们模拟一个并发场景，观察“锁竞争”对吞吐量的影响。如果没有这些工具，模拟 10 个线程同时攻击一个方法将会非常繁琐且容易出错。

常见陷阱与最佳实践

在使用 JMH 的过程中，我们也总结了一些经验和避坑指南，希望能帮助你节省时间：

避免死代码消除：正如之前提到的，基准方法必须返回一个值，或者使用 BlackHole 对象来消费这些值。

    // 错误示范
    @Benchmark
    public void testWrong() {
        compute(); // JVM 可能会直接删除这行代码，因为结果没用
    }

    // 正确示范
    @Benchmark
    public long testCorrect() {
        return compute(); // JVM 必须执行才能知道结果
    }

避免常量折叠：如果你在循环中计算 INLINECODE4a664cf5，而 INLINECODE23ebe5f4 是常量，JVM 可能会直接计算出结果并放入循环，导致循环变空。

* 解决方案：始终从 INLINECODEb81d22a3 对象中读取数据，或者从 INLINECODEa24f1150 注解中获取数据，确保数据是动态的。

循环的陷阱：初学者常喜欢在 @Benchmark 方法里写一个循环（比如跑 1000 次），然后计算总时间。

* 为什么不好？ JMH 本身就是通过控制“调用次数”和“时间”来工作的。如果你自己在里面写循环，就干扰了 JMH 的测量机制（例如 JIT 对循环边界有特殊优化）。

* 正确做法：方法体只写“一次操作”，让 JMH 去决定要调用多少次。如果需要测试批量处理，可以使用 INLINECODEbbfdb317 或 INLINECODEe9d5ec0d。

深入理解：Warmup (预热)

预热是微基准测试中的“生死线”。

当 Java 代码刚开始运行时，它是解释执行的，速度很慢。随着运行次数增加，热点代码被识别出来，JIT 编译器将其编译为高效的本地机器码。这个过程（C1/C2 编译）会花费时间，也会产生性能尖峰。

如果你不进行预热，你的测试结果里会混入“编译时间”，导致数据波动巨大。JMH 默认会进行几次预热迭代，我们在结果中通常只看“Measured”阶段的数据。确保你的预热次数足够多，直到性能数据趋于平稳。

如何运行与分析结果

你可以像上面的例子那样，在 main 方法中调用 org.openjdk.jmh.Main.main(args)。但更专业的做法是使用 Maven 打包成 JAR，然后通过命令行运行，这样更容易控制 JVM 参数。

命令行示例：

# 使用 java -jar 运行打包好的 benchmark.jar
java -jar target/benchmarks.jar -jvmArgsAppend "-Xmx2g"

阅读结果输出：

你会看到类似下方的表格：

Benchmark                          Mode  Cnt    Score   Error  Units
ConcurrencyBenchmark.incrementWithAtomic  thrpt   20  123.456 ± 5.678  ops/ms
ConcurrencyBenchmark.incrementWithSync    thrpt   20   98.765 ± 3.210  ops/ms

Score：主要指标值。这里 Atomic 的吞吐量确实更高。
Error：误差范围。误差越小，说明测试越稳定。
Units：单位，这里是“每毫秒操作次数”。

总结与后续步骤

通过这篇文章，我们不仅了解了 JMH 是什么，还通过两个完整的示例掌握了从简单算法对比到复杂并发锁测试的全过程。JMH 不仅仅是一个计时器，它是我们与 JVM JIT 编译器对话的工具。

掌握 JMH 后，你可以：

量化优化成果：不再靠感觉说“变快了”，而是拿出“误差在 ±2% 以内的提升报告”。
发现代码隐患：通过 SampleTime 模式发现代码中的偶尔卡顿。
选择最佳库：例如在 JSON 解析库、日志框架之间做出基于数据的决策。

给你的建议是：

在你下一次对代码性能产生疑问，或者决定是否要重构某个循环时，写一个简单的 JMH 测试用例。它可能只需要几分钟，但能帮你避免 Hours 的调试和“伪优化”。

最后，请记住 JMH 官方文档中的一句话：“All measurements are wrong, some are useful.”（所有测量都有误差，但有些是有用的）。JMH 就是那个让我们尽量接近“有用”和“准确”的神器。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客