AVX512 问答列表

使用 AVX-512 乘以“uint64_t”的向量 [复制]

作者:Litherum 提问时间:10/1/2023

这个问题在这里已经有答案了: 为什么使用 imul 来乘以无符号数字? (2 个答案) 将int64_t数组相乘的最快方法? (2 个答案) 为什么有符号和无符号乘法在x86(-64)上的指令不同? ...

SIMD 算法,用于检查整数块是否为“连续”。

作者:Carl 提问时间:11/16/2023

如何检查对齐的 16 个块是否连续(并且不断增加)?u32 例如:is。 而且,不是。[100, 101, 102, ..., 115][100, 99, 3 ...] 我在 AVX512f 上。...

无法获取“vrndscalepd”的正确舍入模式代码

作者:RTC222 提问时间:11/11/2023

我正在打电话对 ZMM 寄存器进行四舍五入。要四舍五入的寄存器是:vrndscalepd {3.9304247359239284, 0.85804618270500566, 1.8999409082...

gcc:启用 AVX,但不支持 FP 数学

作者:Kevin Meier 提问时间:11/11/2023

gcc 是否可以选择启用 AVX512,但仅适用于非 FP 操作?我遇到的问题是,如果启用 AVX512,我的应用程序会变慢得多,因为它们似乎会降低 CPU 内核的频率。 但是,许多代码仍然可以从整...

__m512的包装位测试

作者:user2052436 提问时间:11/3/2023

没有__m512填充位测试的内在函数(如)。_mm512_testz_si512 最好的方法是什么?...

YMM寄存器之间的逻辑转换

作者:thequestioner 提问时间:10/31/2023

我是否可以将一个 2048 位数字加载到 8 个 AVX ymm 寄存器中,并在所有这些寄存器之间左右移动位? 我一次只需要移动 1 位。 我试图在 AVX 上找到准确的信息,但很多时候 xmm/...

如何将_mm256_permute4x64扩展到 AVX-512?

作者:aganm 提问时间:10/30/2023

我有这个 AVX2 代码,我正在尝试将其扩展到 AVX-512: _mm256_permute4x64_epi64(a, _MM_SHUFFLE(3, 1, 2, 0)); 扩展代码如下所示: ...

AVX512 中 _mm256_sign_epi8 的等效函数

作者:Srihari S 提问时间:10/27/2023

我正在尝试使用 AVX512 代码。在进行相同的工作时,试图寻找类似于 AVX512 中_mm256_sign_epi8的功能,但无法找到等效的功能。如果我们找到类似的指令,那将非常有用。是否有等效指...

为什么添加 vmovapd 指令可以使 simd 矢量化代码运行得更快?

作者:Rasmus 提问时间:10/24/2023

我正在对一些高性能数值代码进行矢量化,我注意到使用 Intel 的 SSE、AVX 和 AVX512 指令的 SIMD 矢量化性能与笔记本电脑上矢量寄存器的长度不成比例。我的笔记本电脑有 Tiger ...

Intel AVX-512:如何设置 EVEX.z 位

作者:RTC222 提问时间:3/21/2020

AVX-512 中将 EVEX.z 位与 k 寄存器结合使用,以控制屏蔽。如果 z 位为 0,则为合并屏蔽,如果 z 位为 1,则 k 寄存器中的零元素在输出中归零。 语法如下所示: VPSUBQ...


共17条 当前第1页