如何在 Java 中编写正确的微基准测试？-解网

问：

如何在 Java 中编写（和运行）正确的微基准测试？

我正在寻找一些代码示例和注释来说明需要考虑的各种事情。

示例：基准测试应该测量时间/迭代还是迭代/时间，为什么？

相关新闻：秒表基准测试可以接受吗？

Java JVM-HotSpot 微基准测试

0赞 Tiago 2/1/2011

有关一些相关信息，请参阅几分钟前的 [this question][1]。编辑：对不起，这不应该是一个答案。我应该发表评论。[1]：stackoverflow.com/questions/503877/......

6赞 Raedwald 5/13/2015

Java 9 可能为微基准测试提供了一些功能： openjdk.java.net/jeps/230

3赞 assylias 12/2/2015

@Raedwald我认为 JEP 旨在为 JDK 代码添加一些微基准测试，但我不认为 jmh 会包含在 JDK 中......

2赞 Michael 9/14/2017

@Raedwald 来自未来的你好。它没有成功。

1赞 Basil Bourque 1/9/2018

请参阅：JMH，用于构建、运行和分析纳米/微米/毫/宏观基准的 Java 工具和 JEP 230：微基准测试套件和重复问题处理时间度量的最佳方法？。

答：

97赞 Jon Skeet 2/3/2009 #1

Java 基准测试的重要内容包括：

首先通过多次运行代码来预热 JIT，然后再对其进行计时
确保运行它足够长的时间，以便能够在几秒钟或（更好）几十秒内测量结果
虽然你不能在迭代之间调用，但最好在测试之间运行它，这样每个测试都有望获得一个“干净”的内存空间来使用。（是的，与其说是保证，不如说是暗示，但根据我的经验，它很可能真的会垃圾回收。System.gc()gc()
我喜欢显示迭代和时间，以及可以缩放的时间/迭代分数，以便“最佳”算法获得 1.0 的分数，而其他算法则以相对方式得分。这意味着您可以在很长一段时间内运行所有算法，改变迭代次数和时间，但仍能获得可比较的结果。

我只是在写一篇关于.NET基准测试框架设计的博客。我之前有几篇文章，也许能给你一些想法——当然，不是所有的东西都合适，但其中一些可能是合适的。

3赞 Sanjay T. Sharma 4/20/2013

小吹毛求疵：IMO “so that each test gets” 应该是 “so that each test may get”，因为前者给人的印象是调用总是会释放未使用的内存。gc

1赞 Jon Skeet 4/20/2013

@SanjayT.Sharma：嗯，意图是它确实如此。虽然它没有严格保证，但它实际上是一个非常强烈的暗示。将编辑得更清晰。

2赞 gyorgyabraham 6/14/2013

我不同意调用System.gc（）。这是一个提示，仅此而已。甚至没有“希望它能做点什么”。你永远不应该叫它。这是编程，不是艺术。

16赞 Jon Skeet 6/14/2013

@gyabraham：是的，这是一个暗示——但这是我观察到的通常被接受的暗示。因此，如果您不喜欢使用，由于在以前的测试中创建的对象，您如何建议在一次测试中最大限度地减少垃圾回收？我是务实的，而不是教条的。System.gc()

11赞 Jon Skeet 6/15/2013

@gyabraham：我不知道你说的“伟大的后备”是什么意思。您能否再详细说明一下 - 您是否有提供更好结果的建议？我确实明确表示这不是保证......

13赞 Mnementh 2/3/2009 #2

在 Java 中编写微基准测试可能存在许多陷阱。

首先：你必须计算各种事件，这些事件或多或少是随机的：垃圾回收、缓存效果（文件的操作系统和内存的 CPU）、IO 等。

第二：你不能相信在很短的间隔内测量时间的准确性。

第三：JVM 在执行时优化您的代码。因此，在同一个JVM实例中的不同运行将变得越来越快。

我的建议是：让你的基准测试运行几秒钟，这比几毫秒的运行时间更可靠。预热 JVM（意味着至少运行一次基准测试而不测量 JVM 是否可以运行优化）。并多次运行基准测试（可能 5 次）并取中值。在新的 JVM 实例中运行每个微基准测试（调用每个基准测试的新 Java），否则 JVM 的优化效果会影响以后运行的测试。不要执行预热阶段未执行的内容（因为这可能会触发类加载和重新编译）。

16赞 Kip 2/3/2009 #3

如果您尝试比较两种算法，请对每种算法至少执行两个基准测试，交替顺序。即：

for(i=1..n)
  alg1();
for(i=1..n)
  alg2();
for(i=1..n)
  alg2();
for(i=1..n)
  alg1();

我发现在不同通道中同一算法的运行时存在一些明显的差异（有时为 5-10%）。

此外，请确保 n 非常大，以便每个循环的运行时间至少为 10 秒左右。迭代次数越多，基准测试时间中的重要数字就越多，数据就越可靠。

6赞 Mnementh 2/3/2009

当然，更改顺序会影响运行时。JVM 优化和缓存效果将在这里起作用。更好的做法是“预热”JVM优化，进行多次运行，并在不同的JVM中对每个测试进行基准测试。

0赞 Bill K 4/2/2022

实际上，我想说的是，对于大多数基准测试，你想要预热版本，我建议如果你运行了 10 秒（根据上述建议），你只计算最后 5 秒——扔掉前 5 秒。请记住，java 在某些时候会编译代码。

16赞 Peter Štibraný 2/3/2009 #4

确保以某种方式使用在基准代码中计算的结果。否则，您的代码可能会被优化。

23赞 Peter Lawrey 2/3/2009 #5

基准测试应该测量时间/迭代还是迭代/时间，为什么？

这取决于您要测试的内容。

如果您对延迟感兴趣，请使用时间/迭代，如果您对吞吐量感兴趣，请使用迭代/时间。

867赞 13 revs, 13 users 60%Eugene Kuleshov #6

Java HotSpot 创建者关于编写微基准测试的提示：

规则0：阅读有关 JVM 和微基准测试的知名论文。Brian Goetz，2005 年就是一个很好的例子。不要对微基准抱有过高的期望;它们只测量有限范围的 JVM 性能特征。

规则1：始终包含一个预热阶段，该阶段将测试内核贯穿始终，足以在计时阶段之前触发所有初始化和编译。（在预热阶段，迭代次数越少。经验法则是数以万计的内部循环迭代。

规则2：始终使用、等运行，以便您可以验证编译器和 JVM 的其他部分在计时阶段没有执行意外工作。-XX:+PrintCompilation-verbose:gc

第2.1条规则：在计时和预热阶段的开始和结束时打印消息，以便您可以验证在计时阶段没有规则 2 的输出。

规则3：请注意和、 OSR 和常规编译之间的区别。该标志报告带有 at 符号的 OSR 编译，以表示非初始入口点，例如：。如果您追求最佳性能，请选择服务器而不是客户端，以及常规而不是 OSR。-client-server-XX:+PrintCompilationTrouble$1::run @ 2 (41 bytes)

规则4：请注意初始化效果。不要在计时阶段首次打印，因为打印会加载和初始化类。不要在预热阶段（或最终报告阶段）之外加载新类，除非您专门测试类加载（在这种情况下，仅加载测试类）。规则 2 是抵御此类影响的第一道防线。

规则5：请注意取消优化和重新编译的影响。不要在计时阶段首次采用任何代码路径，因为编译器可能会基于先前的乐观假设（该路径根本不会被使用）丢弃并重新编译代码。规则 2 是抵御此类影响的第一道防线。

规则6：使用适当的工具来读懂编译器的思维，并期望对它生成的代码感到惊讶。在形成关于什么使某些东西更快或更慢的理论之前，请自己检查代码。

规则7：减少测量中的噪声。在安静的机器上运行基准测试，并运行几次，丢弃异常值。用于将编译器与应用程序一起序列化，并考虑设置以防止编译器与自身并行运行。尽量减少 GC 开销，设置（足够大）等于并使用 UseEpsilonGC（如果可用）。-Xbatch-XX:CICompilerCount=1XmxXms

规则8：为您的基准测试使用一个库，因为它可能更有效，并且已经为此目的进行了调试。例如 JMH、Caliper 或 Bill 和 Paul 出色的 UCSD Java 基准测试。

5赞 John Nilsson 7/11/2010

这也是一篇有趣的文章：ibm.com/developerworks/java/library/j-jtp12214

162赞 Scott Carey 4/23/2011

此外，切勿使用 System.currentTimeMillis（），除非您对 + 或 - 15 毫秒的精度感到满意，这在大多数 OS + JVM 组合中是典型的。请改用 System.nanoTime（）。

5赞 bestsss 6/5/2011

javaOne的一些论文：azulsystems.com/events/javaone_2009/session/...

109赞 Gravity 7/27/2011

需要注意的是，不能保证比更准确。它只能保证至少同样准确。然而，它通常更准确。System.nanoTime()System.currentTimeMillis()

50赞 Waldheinz 3/16/2015

必须使用 instead 的主要原因是前者保证是单调递增的。减去两次调用返回的值实际上可能会产生负面结果，这可能是因为系统时间是由某些 NTP 守护程序调整的。System.nanoTime()System.currentTimeMillis()currentTimeMillis

7赞 Yuriy 12/19/2010 #7

http://opt.sourceforge.net/Java Micro Benchmark - 确定计算机系统在不同平台上的比较性能特征所需的控制任务。可用于指导优化决策和比较不同的 Java 实现。

2赞 Stefan L 3/1/2012

似乎只是对 JVM + 硬件进行基准测试，而不是任意一段 Java 代码。

262赞 Aravind Yarram 12/19/2010 #8

我知道这个问题已经被标记为已回答，但我想提一下两个帮助我们编写微基准测试的库

来自谷歌的卡尺

入门教程

来自 OpenJDK 的 JMH

入门教程

42赞 assylias 12/7/2012

+1 它本可以添加为已接受答案的规则 8：规则 8：因为很多事情都可能出错，你可能应该使用现有的库，而不是尝试自己做！

9赞 assylias 12/3/2015

@Pangea jmh 现在可能优于 Caliper，另请参阅：groups.google.com/forum/#!msg/mechanical-sympathy/m4opvy4xq3U/...

9赞 SpaceTrucker 1/21/2013 #9

还应该注意的是，在比较不同的实现时，分析微基准的结果可能也很重要。因此，应进行显著性检验。

这是因为在基准测试的大多数运行过程中，实现可能比实现更快。但也可能具有更高的价差，因此与相比，测量的性能优势将没有任何意义。ABAAB

因此，正确编写和运行微基准测试也很重要，但也要正确分析它。

50赞 assylias 4/3/2013 #10

jmh 是 OpenJDK 的最新成员，由 Oracle 的一些性能工程师编写。当然值得一看。

jmh 是一个 Java 工具，用于构建、运行和分析用 Java 和其他语言编写的针对 JVM 的纳米/微观/宏观基准测试。

样本测试评论中埋藏着非常有趣的信息。

另请参阅：

1赞 Nitsan Wakart 5/2/2013

另请参阅这篇博文：psy-lob-saw.blogspot.com/2013/04/...，了解有关开始使用 JMH 的详细信息。

1赞 Basil Bourque 7/2/2016

仅供参考，JEP 230：Microbenchmark Suite 是基于此 Java Microbenchmark Harness （JMH）项目的 OpenJDK 提案。没有进入 Java 9 的削减，但可能会在以后添加。

9赞 Sina Madani 3/20/2017 #11

除了其他很好的建议之外，我还要注意以下几点：

对于某些 CPU（例如配备 TurboBoost 的 Intel Core i5 系列），温度（和当前使用的内核数量及其利用率）会影响时钟速度。由于 CPU 是动态计时的，这可能会影响您的结果。例如，如果您有一个单线程应用程序，则最大时钟速度（使用 TurboBoost）高于使用所有内核的应用程序。因此，这可能会干扰某些系统上单线程和多线程性能的比较。请记住，温度和波动也会影响 Turbo 频率的维持时间。

也许您可以直接控制的一个更重要的方面：确保您测量的是正确的东西！例如，如果您要对特定代码位进行基准测试，请将对赋值的调用放在有意义的位置，以避免测量您不感兴趣的内容。例如，不要执行以下操作：System.nanoTime()

long startTime = System.nanoTime();
//code here...
System.out.println("Code took "+(System.nanoTime()-startTime)+"nano seconds");

问题是当代码完成时，您不会立即获得结束时间。相反，请尝试以下操作：

final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");

1赞 Peter Cordes 3/23/2019

是的，不要在定时区域内做不相关的工作很重要，但你的第一个例子仍然很好。只有一个调用，而不是单独的标题行或其他东西，并且必须作为为该调用构造字符串参数的第一步进行评估。编译器对第一个程序无能为力，而对第二个程序无能为力，而且两者都不鼓励他们在记录停止时间之前做额外的工作。printlnSystem.nanoTime()

上一个：将 async/await 与 forEach 循环一起使用

下一个：从其他列表中的数字中查找项目在另一个列表中的位置

如何在 Java 中编写正确的微基准测试？

How do I write a correct micro-benchmark in Java?

评论

评论

评论

评论

评论

评论

评论

评论