32 位比较比 64 位比较快吗？-解网

问：

32 位的比较比 64 位的比较快吗？

我正在看这个文件 http://www.netlib.org/fdlibm/s_cos.c

他们有这段代码

    /* |x| ~< pi/4 */
    ix &= 0x7fffffff;
    if(ix <= 0x3fe921fb) return __kernel_cos(x,z);

我理解第一行，它计算 x 的绝对值。但为什么比较如此复杂呢？通过比较前 32 位而不是所有 64 位，性能是否有任何改进？我可以写吗

long unsigned int ix = *(long unsigned int *)(&x);
ix &= 0x7fffffffffffffff;
if (ix < 0x3fe921fb54442d18) 
/* What comes next */ ;

并期望在 64 位机器上获得相同的速度性能？虽然我同意这会消耗更多的内存。

0x3fe921fb54442d18是 pi/2。

C 性能比较微优化

我会选择第一种选择。即使在 64 位机器上，无论优化设置如何，速度都更快，并且使用更少的内存和功耗，因为 32 位比较电路更小，使用更少的能量。另请注意，使用键入在技术上是未定义的行为。long unsigned int ix = *(long unsigned int *)(&x);doublex

测试代码：

volatile int ix = 0; // Changing this value has no effect
clock_t before = clock();
for (int i = 1<<30; i--;) {
    volatile int sink = ix <= 0x3fe921fb;
}
printf("%f\n", (double)(clock()-before)/CLOCKS_PER_SEC);

volatile unsigned long ix = 0;
clock_t before = clock();
for (int i = 1<<30; i--;) {
    volatile int sink = ix < 0x3fe921fb54442d18;
}
printf("%f\n", (double)(clock()-before)/CLOCKS_PER_SEC);

你使用了什么测试代码，是如何编译的？或者你是用 asm 手写的，这样你就可以比较优化编译器一次可能做什么？最大的区别是，将 64 位常量放入寄存器中需要更多/更大的指令，例如（x86-64 上的 10 字节），而 32 位即时可直接用作（或针对 32 位内存操作数）的即时操作。mov rax, 0x3fe921fb54442d18cmp ecx, 0x3fe921fb

1赞 Peter Cordes 5/23/2023

但是，是的，在 x86-64 上，如果可能的话，32 位操作数大小通常更好。即使没有任意常量，代码大小也略小。在 x86-64 中使用 32 位寄存器/指令的优点。这在 AArch64 或大多数其他 64 位 ISA 上并非如此，除非您需要具体化 64 位常量，否则代码大小没有区别。我假设无论您如何编译测试，编译器都无法将常量放在循环之外的寄存器中？

1赞 Peter Cordes 5/23/2023

好的，这允许编译器将 64 位常量从循环中提升出来;godbolt.org/z/oes86r5W4 显示每个比较的工作是加载 64 位易失性，比较，并将结果布尔化为 32 位 0 或 1（这在 x86 上并非易事，不幸的是，除了制作 8 位 0/1 之外，还需要 2 条额外的指令）。ix

1赞 Peter Cordes 5/23/2023

无论如何，由于它可以将常量提升出循环，并且没有来自代码大小的 I-cache 压力，我希望两个循环以相同的速度运行，除了代码对齐的怪癖（尤其是在 Skylake 上，如果您不使用如何减轻英特尔 jcc 勘误表对 gcc 的影响？)

1赞 Peter Cordes 5/23/2023

是的，只有少数架构（特别是 MIPS 和 RISC-V）具有比较指令，这些指令可以比较通用整数寄存器中的 0/1 整数。x86 有一个指令（）根据 FLAGS 条件写入一个 8 位寄存器或带有 0/1 的内存位置，但将其扩展到 32 位需要另一条指令，最好在进行比较之前对整个寄存器进行异或归零。AArch64 要好得多，能够在零注册上使用灵活且设计巧妙（条件选择 inc）的 insn 在另一条指令中将比较结果具体化为 0/1。setcccsinc

上一个：我的测试表明 .NET 远程处理比 WCF 4 快 1.5 倍

下一个：Typescript：如何期望精确的类实例作为函数参数

32 位比较比 64 位比较快吗？

Is 32 bit comparison faster than 64 bit comparison?

评论

评论