提问人:John Nilsson 提问时间:2/3/2009 最后编辑:HearenJohn Nilsson 更新时间:6/28/2023 访问量:142106
如何在 Java 中编写正确的微基准测试?
How do I write a correct micro-benchmark in Java?
问:
如何在 Java 中编写(和运行)正确的微基准测试?
我正在寻找一些代码示例和注释来说明需要考虑的各种事情。
示例:基准测试应该测量时间/迭代还是迭代/时间,为什么?
相关新闻: 秒表基准测试可以接受吗?
答:
Java 基准测试的重要内容包括:
- 首先通过多次运行代码来预热 JIT,然后再对其进行计时
- 确保运行它足够长的时间,以便能够在几秒钟或(更好)几十秒内测量结果
- 虽然你不能在迭代之间调用,但最好在测试之间运行它,这样每个测试都有望获得一个“干净”的内存空间来使用。(是的,与其说是保证,不如说是暗示,但根据我的经验,它很可能真的会垃圾回收。
System.gc()
gc()
- 我喜欢显示迭代和时间,以及可以缩放的时间/迭代分数,以便“最佳”算法获得 1.0 的分数,而其他算法则以相对方式得分。这意味着您可以在很长一段时间内运行所有算法,改变迭代次数和时间,但仍能获得可比较的结果。
我只是在写一篇关于.NET基准测试框架设计的博客。我之前有几篇文章,也许能给你一些想法——当然,不是所有的东西都合适,但其中一些可能是合适的。
评论
gc
System.gc()
在 Java 中编写微基准测试可能存在许多陷阱。
首先:你必须计算各种事件,这些事件或多或少是随机的:垃圾回收、缓存效果(文件的操作系统和内存的 CPU)、IO 等。
第二:你不能相信在很短的间隔内测量时间的准确性。
第三:JVM 在执行时优化您的代码。因此,在同一个JVM实例中的不同运行将变得越来越快。
我的建议是:让你的基准测试运行几秒钟,这比几毫秒的运行时间更可靠。预热 JVM(意味着至少运行一次基准测试而不测量 JVM 是否可以运行优化)。并多次运行基准测试(可能 5 次)并取中值。在新的 JVM 实例中运行每个微基准测试(调用每个基准测试的新 Java),否则 JVM 的优化效果会影响以后运行的测试。不要执行预热阶段未执行的内容(因为这可能会触发类加载和重新编译)。
如果您尝试比较两种算法,请对每种算法至少执行两个基准测试,交替顺序。即:
for(i=1..n)
alg1();
for(i=1..n)
alg2();
for(i=1..n)
alg2();
for(i=1..n)
alg1();
我发现在不同通道中同一算法的运行时存在一些明显的差异(有时为 5-10%)。
此外,请确保 n 非常大,以便每个循环的运行时间至少为 10 秒左右。迭代次数越多,基准测试时间中的重要数字就越多,数据就越可靠。
评论
确保以某种方式使用在基准代码中计算的结果。否则,您的代码可能会被优化。
基准测试应该测量时间/迭代还是迭代/时间,为什么?
这取决于您要测试的内容。
如果您对延迟感兴趣,请使用时间/迭代,如果您对吞吐量感兴趣,请使用迭代/时间。
Java HotSpot 创建者关于编写微基准测试的提示:
规则0:阅读有关 JVM 和微基准测试的知名论文。Brian Goetz,2005 年就是一个很好的例子。不要对微基准抱有过高的期望;它们只测量有限范围的 JVM 性能特征。
规则1:始终包含一个预热阶段,该阶段将测试内核贯穿始终,足以在计时阶段之前触发所有初始化和编译。(在预热阶段,迭代次数越少。经验法则是数以万计的内部循环迭代。
规则2:始终使用 、 等运行,以便您可以验证编译器和 JVM 的其他部分在计时阶段没有执行意外工作。-XX:+PrintCompilation
-verbose:gc
第2.1条规则:在计时和预热阶段的开始和结束时打印消息,以便您可以验证在计时阶段没有规则 2 的输出。
规则3:请注意 和 、 OSR 和常规编译之间的区别。该标志报告带有 at 符号的 OSR 编译,以表示非初始入口点,例如:。如果您追求最佳性能,请选择服务器而不是客户端,以及常规而不是 OSR。-client
-server
-XX:+PrintCompilation
Trouble$1::run @ 2 (41 bytes)
规则4:请注意初始化效果。不要在计时阶段首次打印,因为打印会加载和初始化类。不要在预热阶段(或最终报告阶段)之外加载新类,除非您专门测试类加载(在这种情况下,仅加载测试类)。规则 2 是抵御此类影响的第一道防线。
规则5:请注意取消优化和重新编译的影响。不要在计时阶段首次采用任何代码路径,因为编译器可能会基于先前的乐观假设(该路径根本不会被使用)丢弃并重新编译代码。规则 2 是抵御此类影响的第一道防线。
规则6:使用适当的工具来读懂编译器的思维,并期望对它生成的代码感到惊讶。在形成关于什么使某些东西更快或更慢的理论之前,请自己检查代码。
规则7:减少测量中的噪声。在安静的机器上运行基准测试,并运行几次,丢弃异常值。用于将编译器与应用程序一起序列化,并考虑设置以防止编译器与自身并行运行。尽量减少 GC 开销,设置(足够大)等于并使用 UseEpsilonGC
(如果可用)。-Xbatch
-XX:CICompilerCount=1
Xmx
Xms
规则8:为您的基准测试使用一个库,因为它可能更有效,并且已经为此目的进行了调试。例如 JMH、Caliper 或 Bill 和 Paul 出色的 UCSD Java 基准测试。
评论
System.nanoTime()
System.currentTimeMillis()
System.nanoTime()
System.currentTimeMillis()
currentTimeMillis
http://opt.sourceforge.net/Java Micro Benchmark - 确定计算机系统在不同平台上的比较性能特征所需的控制任务。可用于指导优化决策和比较不同的 Java 实现。
评论
我知道这个问题已经被标记为已回答,但我想提一下两个帮助我们编写微基准测试的库
入门教程
入门教程
评论
还应该注意的是,在比较不同的实现时,分析微基准的结果可能也很重要。因此,应进行显著性检验。
这是因为在基准测试的大多数运行过程中,实现可能比实现更快。但也可能具有更高的价差,因此与 相比,测量的性能优势将没有任何意义。A
B
A
A
B
因此,正确编写和运行微基准测试也很重要,但也要正确分析它。
jmh 是 OpenJDK 的最新成员,由 Oracle 的一些性能工程师编写。当然值得一看。
jmh 是一个 Java 工具,用于构建、运行和分析用 Java 和其他语言编写的针对 JVM 的纳米/微观/宏观基准测试。
样本测试评论中埋藏着非常有趣的信息。
另请参阅:
评论
除了其他很好的建议之外,我还要注意以下几点:
对于某些 CPU(例如配备 TurboBoost 的 Intel Core i5 系列),温度(和当前使用的内核数量及其利用率)会影响时钟速度。由于 CPU 是动态计时的,这可能会影响您的结果。例如,如果您有一个单线程应用程序,则最大时钟速度(使用 TurboBoost)高于使用所有内核的应用程序。因此,这可能会干扰某些系统上单线程和多线程性能的比较。请记住,温度和波动也会影响 Turbo 频率的维持时间。
也许您可以直接控制的一个更重要的方面:确保您测量的是正确的东西!例如,如果您要对特定代码位进行基准测试,请将对赋值的调用放在有意义的位置,以避免测量您不感兴趣的内容。例如,不要执行以下操作:System.nanoTime()
long startTime = System.nanoTime();
//code here...
System.out.println("Code took "+(System.nanoTime()-startTime)+"nano seconds");
问题是当代码完成时,您不会立即获得结束时间。相反,请尝试以下操作:
final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");
评论
println
System.nanoTime()
评论