如何借助 avx2 内部函数为 Zen2 编写高效的 GEMM 微内核?
作者:kaisong 提问时间:11/7/2022
我希望能够编写快速内核,当表达式足够计算密集时,这些内核实际上可以充分利用*(*90% 也可以)使用我的硬件的计算能力。顺便说一句,在上一个问题中,我问了同样的内存性能而不是计算性能。 对于手头的问...
avx 问答列表
作者:kaisong 提问时间:11/7/2022
我希望能够编写快速内核,当表达式足够计算密集时,这些内核实际上可以充分利用*(*90% 也可以)使用我的硬件的计算能力。顺便说一句,在上一个问题中,我问了同样的内存性能而不是计算性能。 对于手头的问...
作者:Martin Brown 提问时间:11/3/2023
我已经看到了之前古老的 x87 时代的线程,并认为是时候在 SSE2 和 AVX 的现代时代重新审视它了。我相当简单的 C 基准测试的结果大多符合我的预期,但也有一些惊喜。我很想知道在基于 Unix ...
作者:Rasmus 提问时间:10/24/2023
我正在对一些高性能数值代码进行矢量化,我注意到使用 Intel 的 SSE、AVX 和 AVX512 指令的 SIMD 矢量化性能与笔记本电脑上矢量寄存器的长度不成比例。我的笔记本电脑有 Tiger ...
作者:Srihari S 提问时间:10/27/2023
我正在尝试使用 AVX512 代码。在进行相同的工作时,试图寻找类似于 AVX512 中_mm256_sign_epi8的功能,但无法找到等效的功能。如果我们找到类似的指令,那将非常有用。是否有等效指...
作者:Martin Brown 提问时间:10/26/2023
我在从英特尔 2023 和 MSC Visual C++ 2022 移植工作数字代码时遇到了一个奇怪的问题。 使用 GCC 编译的代码非常准确(过于准确),因为一些库调用以完整的 80 位浮点精度工作...
作者:John Smith 提问时间:10/26/2023
我有一些基本的 SSE 知识,并编写了一些加速函数。但是这个问题让我难住了,我想知道是否真的有一种加速的 SIMD 方法来处理它。 我有一张包含 3 个颜色通道的图像。每个颜色通道的宽度高达 16 ...
作者:Martin Brown 提问时间:10/29/2023
这是求解开普勒方程的三个经典启动器,S3 提供了一个有趣的示例,即具有奇怪时序行为的看似短的代码片段。这个问题涉及在 Microsoft C 编译器 x86 模式下编译它们,其中观察到异常行为 - 即...
作者:aganm 提问时间:10/30/2023
我有这个 AVX2 代码,我正在尝试将其扩展到 AVX-512: _mm256_permute4x64_epi64(a, _MM_SHUFFLE(3, 1, 2, 0)); 扩展代码如下所示: ...
作者:thequestioner 提问时间:10/31/2023
我是否可以将一个 2048 位数字加载到 8 个 AVX ymm 寄存器中,并在所有这些寄存器之间左右移动位? 我一次只需要移动 1 位。 我试图在 AVX 上找到准确的信息,但很多时候 xmm/...
作者:Carl 提问时间:11/16/2023
如何检查对齐的 16 个块是否连续(并且不断增加)?u32 例如:is。 而且,不是。[100, 101, 102, ..., 115][100, 99, 3 ...] 我在 AVX512f 上。...