升级后内环性能下降的原因是什么？-解网

问：

我有一个手卷矩阵算法，它找到方形矩阵右下平方的最大数量（因此在迭代时，某些部分被“跳过”） - 存储为密集矩阵。从 vs2010 更新到 vs2017 后，它似乎要慢得多——总体上放缓了大约 50%。经过一番调查，它被定位到一个函数的内循环，找到绝对最大值。查看汇编程序输出，这似乎是由于在紧密循环中插入了一些额外的 mov 指令。以不同的方式重新设计循环似乎可以解决或部分解决问题。相比之下，海湾合作委员会似乎没有这个“问题”。

简化示例（并不总是需要重现）：fabs

#include <cmath>
#include <iostream>

int f_slow(double *A, size_t from, size_t w)
{
    double biga_absval = *A;
    size_t ir = 0,ic=0;
    for ( size_t j = 0; j < w; j++ ) {
      size_t n = j*w;
      for ( ; n < j*w+w; n++ ) {
        if ( fabs(A[n]) <= biga_absval ) {
          biga_absval = fabs( A[n] );
          ir   = j;
          ic   = n;
        }
        n++;
      }
    }

    std::cout << ir <<ic;
    return 0;
}

int f_fast(double *A, size_t from, size_t w)
{
    double* biga = A;
    double biga_absval = *biga;

    double* n_begin = A + from;
    double* n_end = A + w;
    for (double* A_n = n_begin; A_n < n_end; ++A_n) {
      if (fabs(*A_n) > biga_absval) {
        biga_absval = fabs(*A_n);
        biga = A_n;
      }
    }

    std::cout << biga;
    return 0;
}

int f_faster(double *A, size_t from, size_t w)
{
    double biga_absval = *A;
    size_t ir = 0,ic=0;
    for ( size_t j = 0; j < w; j++ ) {
      size_t n = j;
      for ( ; n < j*w+w; n++ ) {
        if ( fabs(A[n]) > biga_absval ) {
          biga_absval = fabs( A[n] );
          ir   = j;
          ic   = n - j*w;
        }
        n++;
      }
    }

    std::cout << ir <<ic;
    return 0;
}

请注意：创建示例只是为了查看输出（索引等不一定有意义）：

https://godbolt.org/z/q9rWwi

所以我的问题是：这只是一个（已知的？）优化器错误（？），或者在这种情况下，这似乎是一个明显的优化失误背后有什么逻辑吗？

使用最新的稳定版 vs2017 15.9.5

更新：我看到的额外 movs 在跳转代码之前 - 在编译器资源管理器中找到的最简单方法是右键单击，然后“滚动到”。if

VS2017 汇编程序 MOV GCC C visual-c++ visual-studio-2017 编译器优化

@MatthieuBrucher：MSVC 没有选项。它会忽略它，您将获得默认的调试模式未优化代码。.这与 gcc/clang 不同，gcc/clang 支持全面优化，包括使用 gcc 进行自动矢量化。（clang 在 -O2 时启用 auto-vec，但 gcc 仅在 -O3 时启用）。/O3cl : Command line warning D9002 : ignoring unknown option '/O3'-O3

2赞 BlueMonkMN 2/7/2019

我在 stackoverflow.com/questions/32511862/ 年处理过类似的问题，由于 Visual Studio ~2013 中 C++ 编译器的默认安全设置发生了变化。缓冲区溢出处理已更改，但我想这不是您正在处理的完全相同的问题。

1赞 0x777C 5/16/2019

可能是 Spectre 缓解措施减慢了速度

答：

1赞 malik 5/12/2020 #1

好吧，我不知道为什么 VC 在你的情况下变得更糟，但我想提供一些提示，如何保护一些操作。

void f_faster( const double* A, const std::size_t w ) {
    double      biga_absval = A[ 0 ];
    std::size_t ir, ic_n;
    for ( std::size_t j = 0; j < w; ++j ) {
        const auto N = j * w + w;
        for ( std::size_t n = j; n < N; n += 2 ) {
            if ( const auto new_big_a = std::fabs( A[ n ] ); new_big_a > biga_absval ) {
                biga_absval = new_big_a;
                ir          = j;
                ic_n        = n;
            }
        }
    }

    std::cout << ir << ( ic_n - ir * w );
}

不要在内循环中计算 IC，只需存储 N 以备后用
使用 const 帮助优化器
不要对 STD：：FABS 进行两次评估
post-increment 创建一个你不需要的副本（可能优化了）
将循环的上限存储在外部，否则可能会被重新评估（可能被优化）
只需将 n 递增 2，而不是将 2 递增 1
不要使用未使用的值进行初始化

也许这已经足以摆脱多余的动作？

这可以通过基于向量 AND （abs） / compare 的整数值向量递增和混合来为 x86 自动矢量化。只有 AVX 对每个向量进行 4 次双打才有利可图，其中只有 2 次有用，因为它的步幅为 2。（在循环结束时水平检查时忽略奇数元素。也许总体上不值得，尽管使用 AVX 会很好。ndoublefloat

0赞 darune 5/25/2020

想在编译器资源管理器中抛出一个链接进行比较吗？

0赞 darune 5/25/2020

我不相信你的建议有帮助 - 即。最终以更快的汇编代码结束 - 但请随时在编译器资源管理器上修改我的示例以证明我错了。

0赞 malik 5/26/2020

你是对的，差异很小，你可以在这里进行实验： quick-bench.com/Y7LD3P2QRwmrp8U0G6a_vyoQouY 这也取决于编译器。我的猜测是，代码中的某些内容使您的编译器咳嗽，稍微更改它可能会解决您的编译器问题。您只能通过对您的设置进行编译和基准测试来了解。比较程序集是不可靠的，因为几乎不可能详细预测 CPU 的实际操作。

上一个：如何对参数包进行分组或成对折叠？

下一个：如何在 std：：reduce 和 std：：accumulate 之间进行选择？

升级后内环性能下降的原因是什么？

What is the reason for inner loop performance degradation after upgrade?

评论

评论