针对快速乘法但慢速加法进行优化：FMA 和 doubledouble-解网

问：

当我第一次获得 Haswell 处理器时，我尝试实现 FMA 来确定曼德布洛特集。主要算法是这样的：

intn = 0;
for(int32_t i=0; i<maxiter; i++) {
    floatn x2 = square(x), y2 = square(y); //square(x) = x*x
    floatn r2 = x2 + y2;
    booln mask = r2<cut; //booln is in the float domain non integer domain
    if(!horizontal_or(mask)) break; //_mm256_testz_pd(mask)
    n -= mask
    floatn t = x*y; mul2(t); //mul2(t): t*=2
    x = x2 - y2 + cx;
    y = t + cy;
}

这决定了像素是否在曼德布洛特集中。因此，对于双浮点，它运行在 4 个像素（，）上。这需要 4 个 SIMD 浮点乘法和 4 个 SIMD 浮点加法。nfloatn = __m256dintn = __m256i

然后我修改了它以像这样与 FMA 一起使用

intn n = 0; 
for(int32_t i=0; i<maxiter; i++) {
    floatn r2 = mul_add(x,x,y*y);
    booln mask = r2<cut;
    if(!horizontal_or(mask)) break;
    add_mask(n,mask);
    floatn t = x*y;
    x = mul_sub(x,x, mul_sub(y,y,cx));
    y = mul_add(2.0f,t,cy);
}

mul_add呼叫和mul_sub呼叫。此方法使用 4 个 FMA SIMD 运算和两个 SIMD 乘法，与没有 FMA 相比，算术运算少了两个。此外，FMA 和乘法可以使用两个端口，并且只能添加一个端口。_mm256_fmad_pd_mm256_fmsub_pd

为了使我的测试不那么有偏差，我放大了一个完全在曼德布洛特集中的区域，所以所有的值都是。在这种情况下，使用 FMA 的方法速度提高了约 27%。这当然是一个进步，但从 SSE 到 AVX 使我的性能翻了一番，所以我希望 FMA 能再增加两倍。maxiter

但后来我找到了关于 FMA 的答案，它说

融合乘加指令的重要方面是中间结果的（几乎）无限精度。这有助于提高性能，但不会那么大，因为两个操作被编码在一条指令中——它有助于提高性能，因为中间结果的几乎无限的精度有时很重要，并且当这种精度水平确实是程序员所追求的时，通过普通的乘法和加法来恢复非常昂贵。

后面给出了一个 double*double 到 double-double 乘法的例子

high = a * b; /* double-precision approximation of the real product */
low = fma(a, b, -high); /* remainder of the real product */

由此，我得出结论，我实现 FMA 的方式不是最佳的，因此我决定实施 SIMD double-double。我基于论文 Extended-Precision Floating-Point Numbers for GPU Computation 实现了 double-double。这张纸是用于双浮点的，所以我把它修改为双双。此外，我没有在 SIMD 寄存器中打包一个双双值，而是将 4 个双双值打包到一个 AVX 高电平寄存器和一个 AVX 低电平寄存器中。

对于曼德布洛特集，我真正需要的是双倍乘法和加法。在那篇论文中，这些是和函数。下图显示了软件 FMA（左）和硬件 FMA（右）函数的程序集。这清楚地表明，硬件FMA是双倍乘法的一大改进。df64_adddf64_multdf64_mult

fma software vs hardware

那么硬件FMA在双双曼德布洛特集计算中是如何表现的呢？答案是，这仅比软件 FMA 快 15% 左右。这比我所希望的要少得多。双倍曼德布洛特计算需要 4 次双倍加法和 4 次双倍乘法（、、和）。但是，2*（x*y） 乘法对于双倍是微不足道的，因此这种乘法在成本中可以忽略不计。因此，我认为使用硬件 FMA 的改进如此之小的原因是计算以缓慢的双双加法为主（见下面的组装）。x*xy*yx*y2*(x*y)

过去，乘法比加法慢（程序员使用了几种技巧来避免乘法），但对于 Haswell，情况似乎正好相反。不仅是由于 FMA，还因为乘法可以使用两个端口，但只能添加一个端口。

所以我的问题（最后）是：

与乘法相比，当加法较慢时，如何优化？
有没有一种代数方法可以改变我的算法以使用更多的乘法和更少的添加？我知道有相反的方法，例如多用两个加法少乘法。(x+y)*(x+y) - (x*x+y*y) = 2*x*y
有没有办法简化df64_add功能（例如使用FMA）？

如果有人想知道，double-double 方法比 double 慢十倍左右。这还不错，我认为如果有硬件四精度类型，它可能至少是双精度的两倍，所以我的软件方法比我对硬件的期望慢五倍（如果存在的话）。

df64_add集会

vmovapd 8(%rsp), %ymm0
movq    %rdi, %rax
vmovapd 72(%rsp), %ymm1
vmovapd 40(%rsp), %ymm3
vaddpd  %ymm1, %ymm0, %ymm4
vmovapd 104(%rsp), %ymm5
vsubpd  %ymm0, %ymm4, %ymm2
vsubpd  %ymm2, %ymm1, %ymm1
vsubpd  %ymm2, %ymm4, %ymm2
vsubpd  %ymm2, %ymm0, %ymm0
vaddpd  %ymm1, %ymm0, %ymm2
vaddpd  %ymm5, %ymm3, %ymm1
vsubpd  %ymm3, %ymm1, %ymm6
vsubpd  %ymm6, %ymm5, %ymm5
vsubpd  %ymm6, %ymm1, %ymm6
vaddpd  %ymm1, %ymm2, %ymm1
vsubpd  %ymm6, %ymm3, %ymm3
vaddpd  %ymm1, %ymm4, %ymm2
vaddpd  %ymm5, %ymm3, %ymm3
vsubpd  %ymm4, %ymm2, %ymm4
vsubpd  %ymm4, %ymm1, %ymm1
vaddpd  %ymm3, %ymm1, %ymm0
vaddpd  %ymm0, %ymm2, %ymm1
vsubpd  %ymm2, %ymm1, %ymm2
vmovapd %ymm1, (%rdi)
vsubpd  %ymm2, %ymm0, %ymm0
vmovapd %ymm0, 32(%rdi)
vzeroupper
ret

程序集 x86 浮点 FMA 精度-双精度算术

正如 Agner Fog 在他的一些优化资源中指出的那样（agner.org/optimize，但我不记得确切的文件或页面），有时 FMA 会使事情变慢。我想我记得这个例子是，对于某些英特尔处理器型号，如果以 mul-fma 形式实现，延迟会使时序比 mul-mul-add 更差，后者包含更多的并行性。x*x + y*y

1赞 Z boson 6/1/2015

@PascalCuoq，到目前为止，我一直在使用 IACA，然后查看时机。对于双倍来说，这主要是一个猜谜游戏，因为曼德布洛特集合的 FMA 有很多排列。有了double-double，在哪里使用它就很清楚了。但主要问题是加 double-double。与乘法相比，它太慢了。可以做些什么？

3赞 njuffa 6/2/2015

正确编程的双双加法几乎正好包含 20 个基本浮点运算。您可能会遇到使用较少指令的版本，但是当您需要和想要它时，这些版本会精确地失去准确性，这是对大小几乎相同的操作数的有效减法。双双加的加速需要硬件改进。最大幅度和最小幅度运算有一点帮助，而单次舍入的三输入加法有很大帮助。一些处理器架构提供前者，我不知道有哪个提供后者，

1赞 tmyklebu 6/2/2015

如果你只是追求比更高的精度，你可以通过做一个 Knuth 2 和（6 个浮点泊位）和另一个 Knuth 2 和（另外 6 个浮点运算）来计算，然后只需对剩余的四个项求和。您可以使用基于 FMA 的 double*double -> double double 乘积进行计算，用 cy 做一个 Knuth 2 和，然后将余数项相加。（我没有测试过这个，也没有做过认真的分析，所以这个建议可能是垃圾。doublex2hi + x2lo + y2hi + y2lo + cxx2hiy2hicx2*x*y+cy

1赞 tmyklebu 6/2/2015

@Zboson：最小值和最大量级允许您使用“Fast2Sum”;如果大小大于，则可以做;计算中的差值和总和是准确的。“浮点运算手册”有所有这些技巧，还有更多。我发现 Ogita、Rump 和 Oishi 的“准确的求和和点积”很有教育意义，但它绝不是 Fast2Sum 的原始参考。xyhi = x+y; lo = (x-hi)+ylo

答：

5赞 Z boson 6/4/2015 #1

为了回答我的第三个问题，我找到了一个更快的双倍加法解决方案。我在论文《实现》中找到了另一种定义图形上的浮点-浮点运算符硬件。

Theorem 5 (Add22 theorem) Let be ah+al and bh+bl the float-float arguments of the following
algorithm:
Add22 (ah ,al ,bh ,bl)
1 r = ah ⊕ bh
2 if | ah | ≥ | bh | then
3     s = ((( ah ⊖ r ) ⊕ bh ) ⊕ b l ) ⊕ a l
4 e l s e
5     s = ((( bh ⊖ r ) ⊕ ah ) ⊕ a l ) ⊕ b l
6 ( rh , r l ) = add12 ( r , s )
7 return (rh , r l)

这是我如何实现这个（伪代码）：

static inline doubledoublen add22(doubledoublen const &a, doubledouble const &b) {
    doublen aa,ab,ah,bh,al,bl;
    booln mask;
    aa = abs(a.hi);                //_mm256_and_pd
    ab = abs(b.hi); 
    mask = aa >= ab;               //_mm256_cmple_pd
    // z = select(cut,x,y) is a SIMD version of z = cut ? x : y;
    ah = select(mask,a.hi,b.hi);   //_mm256_blendv_pd
    bh = select(mask,b.hi,a.hi);
    al = select(mask,a.lo,b.lo);
    bl = select(mask,b.lo,a.lo);

    doublen r, s;
    r = ah + bh;
    s = (((ah - r) + bh) + bl ) + al;
    return two_sum(r,s);
}

Add22 的这个定义使用 11 个加法而不是 20 个加法，但它需要一些额外的代码来确定是否 .这里讨论如何实现 SIMD minmag 和 maxmag 函数。幸运的是，大多数附加代码不使用端口 1。现在只有 12 条指令进入端口 1，而不是 20 条。|ah| >= |bh|

这是新 Add22 的吞吐量分析表 IACA

Throughput Analysis Report
--------------------------
Block Throughput: 12.05 Cycles       Throughput Bottleneck: Port1

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 0.0    0.0  | 12.0 | 2.5    2.5  | 2.5    2.5  | 2.0  | 10.0 | 0.0  | 2.0  |
---------------------------------------------------------------------------------------


| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    |           |     | 0.5   0.5 | 0.5   0.5 |     |     |     |     |    | vmovapd ymm3, ymmword ptr [rip]
|   1    |           |     | 0.5   0.5 | 0.5   0.5 |     |     |     |     |    | vmovapd ymm0, ymmword ptr [rdx]
|   1    |           |     | 0.5   0.5 | 0.5   0.5 |     |     |     |     |    | vmovapd ymm4, ymmword ptr [rsi]
|   1    |           |     |           |           |     | 1.0 |     |     |    | vandpd ymm2, ymm4, ymm3
|   1    |           |     |           |           |     | 1.0 |     |     |    | vandpd ymm3, ymm0, ymm3
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vcmppd ymm2, ymm3, ymm2, 0x2
|   1    |           |     | 0.5   0.5 | 0.5   0.5 |     |     |     |     |    | vmovapd ymm3, ymmword ptr [rsi+0x20]
|   2    |           |     |           |           |     | 2.0 |     |     |    | vblendvpd ymm1, ymm0, ymm4, ymm2
|   2    |           |     |           |           |     | 2.0 |     |     |    | vblendvpd ymm4, ymm4, ymm0, ymm2
|   1    |           |     | 0.5   0.5 | 0.5   0.5 |     |     |     |     |    | vmovapd ymm0, ymmword ptr [rdx+0x20]
|   2    |           |     |           |           |     | 2.0 |     |     |    | vblendvpd ymm5, ymm0, ymm3, ymm2
|   2    |           |     |           |           |     | 2.0 |     |     |    | vblendvpd ymm0, ymm3, ymm0, ymm2
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm3, ymm1, ymm4
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm2, ymm1, ymm3
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm1, ymm2, ymm4
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm1, ymm1, ymm0
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm0, ymm1, ymm5
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm2, ymm3, ymm0
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm1, ymm2, ymm3
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 |    | vmovapd ymmword ptr [rdi], ymm2
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm0, ymm0, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm1, ymm2, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm3, ymm3, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm0, ymm3, ymm0
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 |    | vmovapd ymmword ptr [rdi+0x20], ymm0

这是旧的吞吐量分析

Throughput Analysis Report
--------------------------
Block Throughput: 20.00 Cycles       Throughput Bottleneck: Port1

Port Binding In Cycles Per Iteration:
---------------------------------------------------------------------------------------
|  Port  |  0   -  DV  |  1   |  2   -  D   |  3   -  D   |  4   |  5   |  6   |  7   |
---------------------------------------------------------------------------------------
| Cycles | 0.0    0.0  | 20.0 | 2.0    2.0  | 2.0    2.0  | 2.0  | 0.0  | 0.0  | 2.0  |
---------------------------------------------------------------------------------------

| Num Of |                    Ports pressure in cycles                     |    |
|  Uops  |  0  - DV  |  1  |  2  -  D  |  3  -  D  |  4  |  5  |  6  |  7  |    |
---------------------------------------------------------------------------------
|   1    |           |     | 1.0   1.0 |           |     |     |     |     |    | vmovapd ymm0, ymmword ptr [rsi]
|   1    |           |     |           | 1.0   1.0 |     |     |     |     |    | vmovapd ymm1, ymmword ptr [rdx]
|   1    |           |     | 1.0   1.0 |           |     |     |     |     |    | vmovapd ymm3, ymmword ptr [rsi+0x20]
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm4, ymm0, ymm1
|   1    |           |     |           | 1.0   1.0 |     |     |     |     |    | vmovapd ymm5, ymmword ptr [rdx+0x20]
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm2, ymm4, ymm0
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm1, ymm1, ymm2
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm2, ymm4, ymm2
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm0, ymm0, ymm2
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm2, ymm0, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm1, ymm3, ymm5
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm6, ymm1, ymm3
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm5, ymm5, ymm6
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm6, ymm1, ymm6
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm1, ymm2, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm3, ymm3, ymm6
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm2, ymm4, ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm3, ymm3, ymm5
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm4, ymm2, ymm4
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm1, ymm1, ymm4
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm0, ymm1, ymm3
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vaddpd ymm1, ymm2, ymm0
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm2, ymm1, ymm2
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 |    | vmovapd ymmword ptr [rdi], ymm1
|   1    |           | 1.0 |           |           |     |     |     |     | CP | vsubpd ymm0, ymm0, ymm2
|   2^   |           |     |           |           | 1.0 |     |     | 1.0 |    | vmovapd ymmword ptr [rdi+0x20], ymm0

更好的解决方案是，如果除了 FMA 之外还有三个操作数单舍入模式指令。在我看来，应该有单一的舍入模式说明

a + b + c
a * b + c //FMA - this is the only one in x86 so far
a * b * c

for (j = 0; j < 8; j++) {
    Xrm0 = _mm256_mul_ps(Xre0, Xim0);
    Xrm1 = _mm256_mul_ps(Xre1, Xim1);
    Xtt0 = _mm256_fmsub_ps(Xim0, Xim0, Cre);
    Xtt1 = _mm256_fmsub_ps(Xim1, Xim1, Cre);
    Xrm0 = _mm256_add_ps(Xrm0, Xrm0);
    Xrm1 = _mm256_add_ps(Xrm1, Xrm1);
    Xim0 = _mm256_add_ps(Cim0, Xrm0);
    Xim1 = _mm256_add_ps(Cim1, Xrm1);
    Xre0 = _mm256_fmsub_ps(Xre0, Xre0, Xtt0);
    Xre1 = _mm256_fmsub_ps(Xre1, Xre1, Xtt1);
}       // for

总而言之，

您可以将关键循环中的指令数量减半
您可以添加更多独立指令，并利用乘法和融合乘法加法的高吞吐量与低延迟。

您的 FMA 延迟/吞吐量数字似乎来自 Ryzen 或 Bulldozer 系列。但是，您的意思是“基于乘法结果的加法会获得完整的延迟效果”？任何依赖指令都会受到完全延迟的影响;FMA->FMA 具有与 MUL->ADD 相同的延迟（即使在 Bulldozer 上，FMA 单元内有特殊的快进功能，使其为 5c 而不是 6c。 agner.org/optimize）。无论如何，所有具有 FMA 的 Intel CPU 的 FMA 吞吐量为 0.5c。但是 ADD 的吞吐量为 1c，在 Skylake 之前的 CPU 上（它在 FMA 单元上执行所有操作，将其降低到 4c lat）。

0赞 Pierre 6/27/2018

0.5c 基于带有 2 个 FMA 引擎的单元。很难为 haswell、skylake、coffeelake、cubilake 的每个变体“填充管道”......我使用简单的阈值“理想的fma数”=“延迟”/“吞吐量”。我知道我建议的代码不是最佳的，因为超线程仍然可以填补漏洞。如果编译器可以避免将实时寄存器溢出到内存中（使用 skylake 的 avx512vl 变体......

0赞 Peter Cordes 6/28/2018

您使用的是 256 位 FMA。都支持 FMA 的 Intel CPU 有两个 256 位 FMA 单元。您正在考虑 Skylake-AVX512，其中一些只有一个 512 位 FMA 单元。（当 512 位 uops 在飞行中时，SKX 会关闭端口 1 上的矢量 ALU。端口 0/端口 1 上的两个 256 位 FMA 单元作为单个 512 位 FMA 单元工作。某些型号在端口 5 上有一个额外的 512 位 FMA 单元，该单元仅针对 512 位 uops 激活。

1赞 Z boson 6/28/2018

@Pierre 我问题的重点是关于使用以提高精度。我已经知道如何优化.放大过去后，您的方法将失去精度。但是我找到了一种更好的曼德布洛特集合方法，使用扰动理论将限制因子从尾数移动到指数。所以现在我可以去哪个比哪个好得多，而不会改变指数的精度。无论如何，据我所知，您的答案根本没有回答我的问题。double-doubledouble10^-710^-308double-double

1赞 Pierre 7/3/2018 #3

您提到以下代码：

vsubpd  %ymm0, %ymm4, %ymm2
vsubpd  %ymm2, %ymm1, %ymm1  <-- immediate dependency ymm2
vsubpd  %ymm2, %ymm4, %ymm2
vsubpd  %ymm2, %ymm0, %ymm0  <-- immediate dependency ymm2
vaddpd  %ymm1, %ymm0, %ymm2  <-- immediate dependency ymm0
vaddpd  %ymm5, %ymm3, %ymm1
vsubpd  %ymm3, %ymm1, %ymm6  <-- immediate dependency ymm1
vsubpd  %ymm6, %ymm5, %ymm5  <-- immediate dependency ymm6
vsubpd  %ymm6, %ymm1, %ymm6  <-- dependency ymm1, ymm6
vaddpd  %ymm1, %ymm2, %ymm1
vsubpd  %ymm6, %ymm3, %ymm3  <-- dependency ymm6
vaddpd  %ymm1, %ymm4, %ymm2 
vaddpd  %ymm5, %ymm3, %ymm3  <-- dependency ymm3
vsubpd  %ymm4, %ymm2, %ymm4 
vsubpd  %ymm4, %ymm1, %ymm1  <-- immediate dependency ymm4
vaddpd  %ymm3, %ymm1, %ymm0  <-- immediate dependency ymm1, ymm3
vaddpd  %ymm0, %ymm2, %ymm1  <-- immediate dependency ymm0
vsubpd  %ymm2, %ymm1, %ymm2  <-- immediate dependency ymm1

如果仔细检查，这些大多是依赖操作，并且不满足有关延迟/吞吐量效率的基本规则。大多数指令取决于前一个指令的结果，或之前的 2 个指令。此序列包含 30 个周期的关键路径（大约 9 或 10 条关于“3 个周期延迟”/“1 个周期吞吐量”的指令）。

您的 IACA 在关键路径中报告“CP”=> 条指令，评估成本为 20 个周期的吞吐量。您应该获得延迟报告，因为如果您对执行速度感兴趣，它很重要。

为了消除这个关键路径的成本，如果编译器无法做到这一点，你必须交错大约 20 个类似的指令（例如，因为你的双精度代码在一个单独的库中编译，没有 -flto 优化和 vzeroupper 在函数进入和退出时无处不在，矢量化器只适用于内联代码）。

一种可能性是并行运行 2 个计算（请参阅上一篇文章中关于代码拼接以改进流水线）

如果我假设你的双双代码看起来像这个“标准”实现

// (r,e) = x + y
#define two_sum(x, y, r, e) 
    do { double t; r = x + y; t = r - x; e = (x - (r - t)) + (y - t); } while (0)
#define two_difference(x, y, r, e) \
    do { double t; r = x - y; t = r - x; e = (x - (r - t)) - (y + t); } while (0)
.....

然后，您必须考虑以下代码，其中指令以相当细的粒度交错。

// (r1, e1) = x1 + y1, (r2, e2) x2 + y2
#define two_sum(x1, y1, x2, y2, r1, e1, r2, e2) 
    do { double t1, t2 \
    r1 = x1 + y1; r2 = x2 + y2; \
    t1 = r1 - x1; t2 = r2 - x2; \
    e1 = (x1 - (r1 - t1)) + (y1 - t1); e2 = (x2 - (r2 - t2)) + (y2 - t2);  \
} while (0)
....

然后，这将创建如下代码（延迟报告中的关键路径大致相同，大约有 35 条指令）。有关运行时的详细信息，Out-Of-Order 执行应该会飞越它而不会停滞。

vsubsd  %xmm2, %xmm0, %xmm8
vsubsd  %xmm3, %xmm1, %xmm1
vaddsd  %xmm4, %xmm4, %xmm4
vaddsd  %xmm5, %xmm5, %xmm5
vsubsd  %xmm0, %xmm8, %xmm9
vsubsd  %xmm9, %xmm8, %xmm10
vaddsd  %xmm2, %xmm9, %xmm2
vsubsd  %xmm10, %xmm0, %xmm0
vsubsd  %xmm2, %xmm0, %xmm11
vaddsd  %xmm14, %xmm4, %xmm2
vaddsd  %xmm11, %xmm1, %xmm12
vsubsd  %xmm4, %xmm2, %xmm0
vaddsd  %xmm12, %xmm8, %xmm13
vsubsd  %xmm0, %xmm2, %xmm11
vsubsd  %xmm0, %xmm14, %xmm1
vaddsd  %xmm6, %xmm13, %xmm3
vsubsd  %xmm8, %xmm13, %xmm8
vsubsd  %xmm11, %xmm4, %xmm4
vsubsd  %xmm13, %xmm3, %xmm15
vsubsd  %xmm8, %xmm12, %xmm12
vaddsd  %xmm1, %xmm4, %xmm14
vsubsd  %xmm15, %xmm3, %xmm9
vsubsd  %xmm15, %xmm6, %xmm6
vaddsd  %xmm7, %xmm12, %xmm7
vsubsd  %xmm9, %xmm13, %xmm10
vaddsd  16(%rsp), %xmm5, %xmm9
vaddsd  %xmm6, %xmm10, %xmm15
vaddsd  %xmm14, %xmm9, %xmm10
vaddsd  %xmm15, %xmm7, %xmm13
vaddsd  %xmm10, %xmm2, %xmm15
vaddsd  %xmm13, %xmm3, %xmm6
vsubsd  %xmm2, %xmm15, %xmm2
vsubsd  %xmm3, %xmm6, %xmm3
vsubsd  %xmm2, %xmm10, %xmm11
vsubsd  %xmm3, %xmm13, %xmm0

总结：

内联双双源代码：由于 ABI 约束，编译器和矢量化器无法跨函数调用进行优化，并且由于担心混叠而无法跨内存访问进行优化。
拼接代码以平衡吞吐量和延迟，并最大限度地提高 CPU 端口使用率（并最大限度地提高每个周期的指令数），只要编译器不会将太多寄存器溢出到内存中。

您可以使用 perf 实用程序（软件包 linux-tools-generic 和 linux-cloud-tools-generic）跟踪优化影响，以获取执行的指令数和每个周期的指令数。

无序执行将隐藏依赖链，只要它们不是循环携带的，或者如果存在任何指令级并行性，则部分隐藏它们。如果循环携带的 dep 链的延迟是瓶颈，而不是前端或执行端口，IACA 报告会说“依赖”或“延迟”（我忘了是哪个）。现代 x86 上的指令调度通常不是很重要。

0赞 Pierre 7/4/2018

@PeterCordes 你是对的，但在曼德布洛特示例的上下文中，下一个循环的执行取决于当前循环的结果。我建议的解决方案是开始在如此简单的循环中交错 2 个独立的依赖链（并且每个依赖链都已经矢量化）。在 2 个超线程上运行相同的代码是填补延迟漏洞的另一种方法。

上一个：float128 和双双算术

下一个：在 GPU 上使用 2 个 FP32 模拟 FP64

针对快速乘法但慢速加法进行优化：FMA 和 doubledouble

Optimize for fast multiplication but slow addition: FMA and doubledouble

评论

评论

评论

评论