使用 AVX-512 乘以“uint64_t”的向量 [复制]
作者:Litherum 提问时间:10/1/2023
这个问题在这里已经有答案了: 为什么使用 imul 来乘以无符号数字? (2 个答案) 将int64_t数组相乘的最快方法? (2 个答案) 为什么有符号和无符号乘法在x86(-64)上的指令不同? ...
avx 问答列表
作者:Litherum 提问时间:10/1/2023
这个问题在这里已经有答案了: 为什么使用 imul 来乘以无符号数字? (2 个答案) 将int64_t数组相乘的最快方法? (2 个答案) 为什么有符号和无符号乘法在x86(-64)上的指令不同? ...
作者:user2052436 提问时间:11/3/2023
设置位: 给定一个数组,其中每个都是范围内的 1 位位置(并且都是排序且唯一的),我需要将相应的位设置为 1。int inds[N]inds[i][0, 255]inds[i]__m256i 有没...
作者:FireTner 提问时间:11/9/2023
所以据我所知,如果你想做,有_mm_shuffle_epi8 dst[i] = a[b[i]] 但我的问题是,是否存在一个内在的 dst[b[i]] = a[i] 我希望它能与 16 位的...
作者:Kevin Meier 提问时间:11/11/2023
gcc 是否可以选择启用 AVX512,但仅适用于非 FP 操作?我遇到的问题是,如果启用 AVX512,我的应用程序会变慢得多,因为它们似乎会降低 CPU 内核的频率。 但是,许多代码仍然可以从整...
作者:RTC222 提问时间:11/11/2023
我正在打电话对 ZMM 寄存器进行四舍五入。要四舍五入的寄存器是:vrndscalepd {3.9304247359239284, 0.85804618270500566, 1.8999409082...
作者:Carl 提问时间:11/16/2023
如何检查对齐的 16 个块是否连续(并且不断增加)?u32 例如:is。 而且,不是。[100, 101, 102, ..., 115][100, 99, 3 ...] 我在 AVX512f 上。...
作者:RTC222 提问时间:11/17/2023
以下是 NASM 代码的一小部分: vpxor xmm3,xmm3,xmm3 vmovsd xmm0,[rdi+rcx] vmovsd xmm1,[rsi+rcx] vsubsd xmm2,xmm0...
作者:cyborgdennett 提问时间:10/18/2023
我正在使用 AVX2 内部函数,并希望获得以下内容: 输入:[1,2,3,4,5,6,7,8] 输出:[8,1,2,3,4,5,6,7] 以下内容适用于 128 位向量: let vec1 =...
作者:RTC222 提问时间:3/21/2020
AVX-512 中将 EVEX.z 位与 k 寄存器结合使用,以控制屏蔽。如果 z 位为 0,则为合并屏蔽,如果 z 位为 1,则 k 寄存器中的零元素在输出中归零。 语法如下所示: VPSUBQ...
作者:Serge Rogatch 提问时间:9/30/2023
考虑 8 个包含矩阵行的 AVX512 寄存器,以便每个 64 位通道都是 8x8 矩阵的一个单元。如何在 C/C++ 中转置这样的矩阵? 到目前为止,我尝试过:8 个内在函数。它非常慢,并且大量使...