提问人:Bernard 提问时间:5/8/2019 最后编辑:Peter CordesBernard 更新时间:5/10/2019 访问量:2638
以尽可能快的速度比较 (a + sqrt(b)) 形式的两个值?
Comparing two values in the form (a + sqrt(b)) as fast as possible?
问:
作为我正在编写的程序的一部分,我需要比较两个值,其形式为 where 和 是无符号整数。由于这是一个紧密循环的一部分,我希望这个比较尽可能快地运行。(如果重要的话,我在 x86-64 机器上运行代码,并且无符号整数不大于 10^6。另外,我知道一个事实。a + sqrt(b)
a
b
a1<a2
作为一个独立的功能,这就是我试图优化的。我的数字足够小,可以(甚至)准确地表示它们,但结果中的舍入误差不能改变结果。double
float
sqrt
// known pre-condition: a1 < a2 in case that helps
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
return a1+sqrt(b1) < a2+sqrt(b2); // computed mathematically exactly
}
测试用例:应该返回 true,但如注释所示,@wim计算它将返回 false。因此,将截断回整数。is_smaller(900000, 1000000, 900001, 998002)
sqrtf()
(int)sqrt()
a1+sqrt(b1) = 90100
和。最接近的浮点数正好是 90100。a2+sqrt(b2) = 901000.00050050037512481206
由于即使在现代 x86-64 上,当完全内联为指令时,该函数通常也非常昂贵,因此我尽量避免调用。sqrt()
sqrtsd
sqrt()
通过平方删除 sqrt 还可能通过使所有计算准确来避免舍入错误的任何危险。
相反,如果功能是这样的......
bool is_smaller(unsigned a1, unsigned b1, unsigned x) {
return a1+sqrt(b1) < x;
}
...那我就可以了return x-a1>=0 && static_cast<uint64_t>(x-a1)*(x-a1)>b1;
但是现在由于有两个项,我不能做同样的代数运算。sqrt(...)
通过使用以下公式,我可以对值进行两次平方:
a1 + sqrt(b1) = a2 + sqrt(b2)
<==> a1 - a2 = sqrt(b2) - sqrt(b1)
<==> (a1 - a2) * (a1 - a2) = b1 + b2 - 2 * sqrt(b1) * sqrt(b2)
<==> (a1 - a2) * (a1 - a2) = b1 + b2 - 2 * sqrt(b1 * b2)
<==> (a1 - a2) * (a1 - a2) - (b1 + b2) = - 2 * sqrt(b1 * b2)
<==> ((b1 + b2) - (a1 - a2) * (a1 - a2)) / 2 = sqrt(b1 * b2)
<==> ((b1 + b2) - (a1 - a2) * (a1 - a2)) * ((b1 + b2) - (a1 - a2) * (a1 - a2)) / 4 = b1 * b2
无符号除以 4 很便宜,因为它只是一个位移,但由于我将数字平方两次,我需要使用 128 位整数,并且我需要引入一些检查(因为我比较的是不等式而不是相等式)。>=0
感觉可能有一种方法可以更快地做到这一点,通过将更好的代数应用于这个问题。有没有办法更快地做到这一点?
答:
我累了,可能犯了一个错误;但我敢肯定,如果我这样做了,有人会指出来。.
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
a_diff = a1-a2; // May be negative
if(a_diff < 0) {
if(b1 < b2) {
return true;
}
temp = a_diff+sqrt(b1);
if(temp < 0) {
return true;
}
return temp*temp < b2;
} else {
if(b1 >= b2) {
return false;
}
}
// return a_diff+sqrt(b1) < sqrt(b2);
temp = a_diff+sqrt(b1);
return temp*temp < b2;
}
如果你知道,那么它可能会变成:a1 < a2
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
a_diff = a2-a1; // Will be positive
if(b1 > b2) {
return false;
}
if(b1 >= a_diff*a_diff) {
return false;
}
temp = a_diff+sqrt(b2);
return b1 < temp*temp;
}
评论
a1 < a2
a_diff < 0
> 1000
int a_diff
int64_t
a_diff+sqrt(b1);
a_diff = a2 - a1
b1 <= b2
b1/a_diff < a_diff
sqrt( abs(b1-b2) ) <= sqrt(b1) - sqrt(b2)
b1 < b2
abs(a1-a2) <= 1000
这是一个没有 的版本,尽管我不确定它是否比只有一个的版本更快(这可能取决于值的分布)。sqrt
sqrt
这是数学(如何删除两个 sqrts):
ad = a2-a1
bd = b2-b1
a1+sqrt(b1) < a2+sqrt(b2) // subtract a1
sqrt(b1) < ad+sqrt(b2) // square it
b1 < ad^2+2*ad*sqrt(b2)+b2 // arrange
ad^2+bd > -2*ad*sqrt(b2)
在这里,右边总是负的。如果左侧为正数,则我们必须返回 true。
如果左边为负数,那么我们可以对不等式进行平方:
ad^4+bd^2+2*bd*ad^2 < 4*ad^2*b2
这里要注意的关键是,如果 ,则总是返回(因为最大值为 1000)。如果 ,则为小数,因此将始终适合 64 位(不需要 128 位算术)。代码如下:a2>=a1+1000
is_smaller
true
sqrt(b1)
a2<=a1+1000
ad
ad^4
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
int ad = a2 - a1;
if (ad>1000) {
return true;
}
int bd = b2 - b1;
if (ad*ad+bd>0) {
return true;
}
int ad2 = ad*ad;
return (long long int)ad2*ad2 + (long long int)bd*bd + 2ll*bd*ad2 < 4ll*ad2*b2;
}
编辑:正如 Peter Cordes 所注意到的,第一个是不必要的,因为第二个 if 处理它,所以代码变得更小更快:if
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
int ad = a2 - a1;
int bd = b2 - b1;
if ((long long int)ad*ad+bd>0) {
return true;
}
int ad2 = ad*ad;
return (long long int)ad2*ad2 + (long long int)bd*bd + 2ll*bd*ad2 < 4ll*ad2*b2;
}
评论
ad>1000
ad*ad+bd>0
ad>1000
sub
imul
movzx
ad*ad
int32_t
uint64_t
int64_t
movsxd
ad^4
ad*ad
还有牛顿方法用于计算整数 sqrts,如此处所述 另一种方法是不计算平方根,而是通过二进制搜索搜索 floor(sqrt(n)) ...“只有”1000 个小于 10^6 的全平方数。 这可能性能不佳,但将是一种有趣的方法。我没有测量过其中任何一个,但这里有一些例子:
#include <iostream>
#include <array>
#include <algorithm> // std::lower_bound
#include <cassert>
bool is_smaller_sqrt(unsigned a1, unsigned b1, unsigned a2, unsigned b2)
{
return a1 + sqrt(b1) < a2 + sqrt(b2);
}
static std::array<int, 1001> squares;
template <typename C>
void squares_init(C& c)
{
for (int i = 0; i < c.size(); ++i)
c[i] = i*i;
}
inline bool greater(const int& l, const int& r)
{
return r < l;
}
inline bool is_smaller_bsearch(unsigned a1, unsigned b1, unsigned a2, unsigned b2)
{
// return a1 + sqrt(b1) < a2 + sqrt(b2)
// find floor(sqrt(b1)) - binary search withing 1000 elems
auto it_b1 = std::lower_bound(crbegin(squares), crend(squares), b1, greater).base();
// find floor(sqrt(b2)) - binary search withing 1000 elems
auto it_b2 = std::lower_bound(crbegin(squares), crend(squares), b2, greater).base();
return (a2 - a1) > (it_b1 - it_b2);
}
unsigned int sqrt32(unsigned long n)
{
unsigned int c = 0x8000;
unsigned int g = 0x8000;
for (;;) {
if (g*g > n) {
g ^= c;
}
c >>= 1;
if (c == 0) {
return g;
}
g |= c;
}
}
bool is_smaller_sqrt32(unsigned a1, unsigned b1, unsigned a2, unsigned b2)
{
return a1 + sqrt32(b1) < a2 + sqrt32(b2);
}
int main()
{
squares_init(squares);
// now can use is_smaller
assert(is_smaller_sqrt(1, 4, 3, 1) == is_smaller_sqrt32(1, 4, 3, 1));
assert(is_smaller_sqrt(1, 2, 3, 3) == is_smaller_sqrt32(1, 2, 3, 3));
assert(is_smaller_sqrt(1000, 4, 1001, 1) == is_smaller_sqrt32(1000, 4, 1001, 1));
assert(is_smaller_sqrt(1, 300, 3, 200) == is_smaller_sqrt32(1, 300, 3, 200));
}
评论
sqrt32
n
n
float
sqrtss
c
可能不比其他答案更好,但使用了不同的想法(以及大量的预分析)。
// Compute approximate integer square root of input in the range [0,10^6].
// Uses a piecewise linear approximation to sqrt() with bounded error in each piece:
// 0 <= x <= 784 : x/28
// 784 < x <= 7056 : 21 + x/112
// 7056 < x <= 28224 : 56 + x/252
// 28224 < x <= 78400 : 105 + x/448
// 78400 < x <= 176400 : 168 + x/700
// 176400 < x <= 345744 : 245 + x/1008
// 345744 < x <= 614656 : 336 + x/1372
// 614656 < x <= 1000000 : (784000+x)/1784
// It is the case that sqrt(x) - 7.9992711366390365897... <= pseudosqrt(x) <= sqrt(x).
unsigned pseudosqrt(unsigned x) {
return
x <= 78400 ?
x <= 7056 ?
x <= 764 ? x/28 : 21 + x/112
: x <= 28224 ? 56 + x/252 : 105 + x/448
: x <= 345744 ?
x <= 176400 ? 168 + x/700 : 245 + x/1008
: x <= 614656 ? 336 + x/1372 : (x+784000)/1784 ;
}
// known pre-conditions: a1 < a2,
// 0 <= b1 <= 1000000
// 0 <= b2 <= 1000000
bool is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
// Try three refinements:
// 1: a1 + sqrt(b1) <= a1 + 1000,
// so is a1 + 1000 < a2 ?
// Convert to a2 - a1 > 1000 .
// 2: a1 + sqrt(b1) <= a1 + pseudosqrt(b1) + 8 and
// a2 + pseudosqrt(b2) <= a2 + sqrt(b2),
// so is a1 + pseudosqrt(b1) + 8 < a2 + pseudosqrt(b2) ?
// Convert to a2 - a1 > pseudosqrt(b1) - pseudosqrt(b2) + 8 .
// 3: Actually do the work.
// Convert to a2 - a1 > sqrt(b1) - sqrt(b2)
// Use short circuit evaluation to stop when resolved.
unsigned ad = a2 - a1;
return (ad > 1000)
|| (ad > pseudosqrt(b1) - pseudosqrt(b2) + 8)
|| ((int) ad > (int)(sqrt(b1) - sqrt(b2)));
}
(我手边没有编译器,所以这可能包含一两个错别字。
评论
#include <math.h>
sqrt
long
long long
unsigned
pseudosqrt()
unsigned
unsigned
long long
unsigned
long long
我不确定代数运算是否与整数相结合 算术,必然导致最快的解决方案。您将需要 在这种情况下,许多标量相乘(不是很快),和/或 分支预测可能会失败,从而降低性能。 显然,您必须进行基准测试,以查看哪种解决方案在您的特定情况下最快。
一种方法可以制作
更快一点的是将选项添加到 gcc 或 clang。
在这种情况下,编译器不必检查负输入。
使用 icc 时,这是默认设置。sqrt
-fno-math-errno
通过使用矢量化指令而不是标量指令可以提高更多的性能。
Peter Cordes 已经证明 clang 能够自动矢量化这段代码,
这样它就会生成这个.sqrt
sqrtpd
sqrt
sqrtsd
sqrtpd
但是,自动矢量化的成功程度很大程度上取决于正确的编译器设置
以及使用的编译器(clang、gcc、icc 等)。使用 或更早时,clang 不会矢量化。-march=nehalem
使用以下内部代码可以获得更可靠的矢量化结果,请参见下文。 对于可移植性,我们只假设 SSE2 支持,这是 x86-64 的基线。
/* gcc -m64 -O3 -fno-math-errno smaller.c */
/* Adding e.g. -march=nehalem or -march=skylake might further */
/* improve the generated code */
/* Note that SSE2 in guaranteed to exist with x86-64 */
#include<immintrin.h>
#include<math.h>
#include<stdio.h>
#include<stdint.h>
int is_smaller_v5(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
uint64_t a64 = (((uint64_t)a2)<<32) | ((uint64_t)a1); /* Avoid too much port 5 pressure by combining 2 32 bit integers in one 64 bit integer */
uint64_t b64 = (((uint64_t)b2)<<32) | ((uint64_t)b1);
__m128i ax = _mm_cvtsi64_si128(a64); /* Move integer from gpr to xmm register */
__m128i bx = _mm_cvtsi64_si128(b64);
__m128d a = _mm_cvtepi32_pd(ax); /* Convert 2 integers to double */
__m128d b = _mm_cvtepi32_pd(bx); /* We don't need _mm_cvtepu32_pd since a,b < 1e6 */
__m128d sqrt_b = _mm_sqrt_pd(b); /* Vectorized sqrt: compute 2 sqrt-s with 1 instruction */
__m128d sum = _mm_add_pd(a, sqrt_b);
__m128d sum_lo = sum; /* a1 + sqrt(b1) in the lower 64 bits */
__m128d sum_hi = _mm_unpackhi_pd(sum, sum); /* a2 + sqrt(b2) in the lower 64 bits */
return _mm_comilt_sd(sum_lo, sum_hi);
}
int is_smaller(unsigned a1, unsigned b1, unsigned a2, unsigned b2) {
return a1+sqrt(b1) < a2+sqrt(b2);
}
int main(){
unsigned a1; unsigned b1; unsigned a2; unsigned b2;
a1 = 11; b1 = 10; a2 = 10; b2 = 10;
printf("smaller? %i %i \n",is_smaller(a1,b1,a2,b2), is_smaller_v5(a1,b1,a2,b2));
a1 = 10; b1 = 11; a2 = 10; b2 = 10;
printf("smaller? %i %i \n",is_smaller(a1,b1,a2,b2), is_smaller_v5(a1,b1,a2,b2));
a1 = 10; b1 = 10; a2 = 11; b2 = 10;
printf("smaller? %i %i \n",is_smaller(a1,b1,a2,b2), is_smaller_v5(a1,b1,a2,b2));
a1 = 10; b1 = 10; a2 = 10; b2 = 11;
printf("smaller? %i %i \n",is_smaller(a1,b1,a2,b2), is_smaller_v5(a1,b1,a2,b2));
return 0;
}
有关生成的程序集,请参阅此 Godbolt 链接。
在 Intel Skylake 上的简单吞吐量测试中,使用编译器选项,我发现了吞吐量
其中比原来的好 2.6 倍:6.8 个 CPU 周期对 18 个 CPU 周期,包括循环开销。然而,在一个(太?
简单的延迟测试,其中输入取决于之前的结果,我没有看到任何改进。(39.7 个周期对 39 个周期)。gcc -m64 -O3 -fno-math-errno -march=nehalem
is_smaller_v5()
is_smaller()
a1, a2, b1, b2
is_smaller(_v5)
评论
浮点
数与此策略一起使用,因为打包转换只有 1 uop,并且具有更好的吞吐量。OP 的数字都是 100 万或更少,因此可以精确地用 表示,它们的平方根也可以。顺便说一句,看起来你忘了设置,所以你的 gcc 选择了存储/重新加载策略而不是 ALU。double
float
sqrtps
float
-mtune=haswell
_mm_set_epi32
movd
-march=nehalem
movd
(u)comisd
movaps
movhlps
unpckhpd
(u)comisd
评论
a1+sqrt(b1)<a2
sqrt(b2)
a1 < a2
b1 < b2