提问人:darune 提问时间:1/29/2019 最后编辑:Peter Cordesdarune 更新时间:5/12/2020 访问量:591
升级后内环性能下降的原因是什么?
What is the reason for inner loop performance degradation after upgrade?
问:
我有一个手卷矩阵算法,它找到方形矩阵右下平方的最大数量(因此在迭代时,某些部分被“跳过”) - 存储为密集矩阵。从 vs2010 更新到 vs2017 后,它似乎要慢得多——总体上放缓了大约 50%。经过一番调查,它被定位到一个函数的内循环,找到绝对最大值。查看汇编程序输出,这似乎是由于在紧密循环中插入了一些额外的 mov 指令。以不同的方式重新设计循环似乎可以解决或部分解决问题。相比之下,海湾合作委员会似乎没有这个“问题”。
简化示例(并不总是需要重现):fabs
#include <cmath>
#include <iostream>
int f_slow(double *A, size_t from, size_t w)
{
double biga_absval = *A;
size_t ir = 0,ic=0;
for ( size_t j = 0; j < w; j++ ) {
size_t n = j*w;
for ( ; n < j*w+w; n++ ) {
if ( fabs(A[n]) <= biga_absval ) {
biga_absval = fabs( A[n] );
ir = j;
ic = n;
}
n++;
}
}
std::cout << ir <<ic;
return 0;
}
int f_fast(double *A, size_t from, size_t w)
{
double* biga = A;
double biga_absval = *biga;
double* n_begin = A + from;
double* n_end = A + w;
for (double* A_n = n_begin; A_n < n_end; ++A_n) {
if (fabs(*A_n) > biga_absval) {
biga_absval = fabs(*A_n);
biga = A_n;
}
}
std::cout << biga;
return 0;
}
int f_faster(double *A, size_t from, size_t w)
{
double biga_absval = *A;
size_t ir = 0,ic=0;
for ( size_t j = 0; j < w; j++ ) {
size_t n = j;
for ( ; n < j*w+w; n++ ) {
if ( fabs(A[n]) > biga_absval ) {
biga_absval = fabs( A[n] );
ir = j;
ic = n - j*w;
}
n++;
}
}
std::cout << ir <<ic;
return 0;
}
请注意:创建示例只是为了查看输出(索引等不一定有意义):
所以我的问题是:这只是一个(已知的?)优化器错误(?),或者在这种情况下,这似乎是一个明显的优化失误背后有什么逻辑吗?
使用最新的稳定版 vs2017 15.9.5
更新:我看到的额外 movs 在跳转代码之前 - 在编译器资源管理器中找到的最简单方法是右键单击,然后“滚动到”。if
答:
1赞
malik
5/12/2020
#1
好吧,我不知道为什么 VC 在你的情况下变得更糟,但我想提供一些提示,如何保护一些操作。
void f_faster( const double* A, const std::size_t w ) {
double biga_absval = A[ 0 ];
std::size_t ir, ic_n;
for ( std::size_t j = 0; j < w; ++j ) {
const auto N = j * w + w;
for ( std::size_t n = j; n < N; n += 2 ) {
if ( const auto new_big_a = std::fabs( A[ n ] ); new_big_a > biga_absval ) {
biga_absval = new_big_a;
ir = j;
ic_n = n;
}
}
}
std::cout << ir << ( ic_n - ir * w );
}
- 不要在内循环中计算 IC,只需存储 N 以备后用
- 使用 const 帮助优化器
- 不要对 STD::FABS 进行两次评估
- post-increment 创建一个你不需要的副本(可能优化了)
- 将循环的上限存储在外部,否则可能会被重新评估(可能被优化)
- 只需将 n 递增 2,而不是将 2 递增 1
- 不要使用未使用的值进行初始化
也许这已经足以摆脱多余的动作?
评论
0赞
Peter Cordes
5/12/2020
这可以通过基于向量 AND (abs) / compare 的整数值向量递增和混合来为 x86 自动矢量化。只有 AVX 对每个向量进行 4 次双打才有利可图,其中只有 2 次有用,因为它的步幅为 2。(在循环结束时水平检查时忽略奇数元素。也许总体上不值得,尽管使用 AVX 会很好。n
double
float
0赞
darune
5/25/2020
想在编译器资源管理器中抛出一个链接进行比较吗?
0赞
darune
5/25/2020
我不相信你的建议有帮助 - 即。最终以更快的汇编代码结束 - 但请随时在编译器资源管理器上修改我的示例以证明我错了。
0赞
malik
5/26/2020
你是对的,差异很小,你可以在这里进行实验: quick-bench.com/Y7LD3P2QRwmrp8U0G6a_vyoQouY 这也取决于编译器。我的猜测是,代码中的某些内容使您的编译器咳嗽,稍微更改它可能会解决您的编译器问题。您只能通过对您的设置进行编译和基准测试来了解。比较程序集是不可靠的,因为几乎不可能详细预测 CPU 的实际操作。
评论
f_fast
正在检查 A 的每个元素 (1x),仅每秒检查一次(内循环中为 2 次)......是故意的吗?++A_n
f_faster
n++
from
/O3
cl : Command line warning D9002 : ignoring unknown option '/O3'
-O3