Simd 问答列表

浮点数的金属 SIMD 最小值和最大值操作失败

作者:TToi 提问时间:12/11/2018

问题简述 为什么我在 Metal 2.1 中使用浮点数从 Metal 2.1 中获得未定义的行为和函数?simd_minsimd_max 更新:似乎这只发生在 Radeon Pro 560X GP...

向量双双浮点运算

作者:rwallace 提问时间:4/19/2019

对于某些工作负载,双精度浮点数并不完全足够,因此需要四精度。这在硬件中很少提供,因此解决方法是使用 double-double,其中 128 位数字由一对 64 位数字表示。这不是真正的 IEEE-7...

asm x86_64 Intel Linux - 将 RDX:RAX 移至 XMM0 [副本]

作者:0xDEADBEEF 提问时间:3/7/2022

这个问题在这里已经有答案了: 将 2 个 QWORD 从通用寄存器移动到 XMM 寄存器中作为高/低 [重复] (2 个答案) 从 GP regs 加载 xmm (1 个答案) 如何计算执行 rdts...

x86-64 SSE2 整数 SIMD GCC 内置函数是否有 ARM64 等效项?

作者:terdev 提问时间:3/19/2022

我正在尝试使用 AMM 算法(近似矩阵乘法;在 Apple 的 M1 上),它完全基于速度并使用下面列出的 x86 内置函数。由于将 VM 用于 x86 会减慢算法中的几个关键进程,我想知道是否有另一...

x86 asm 约束“x”(256 位向量操作数)的 ARM 等效项

作者:terdev 提问时间:3/22/2022

我想使用 在 C++ 中执行汇编程序指令。 我需要将以下函数映射到特定于 ARM 的指令(使用 ),因为给定的代码库是在 x86-64 上使用 ARM64 开发的。vrhadd__asm__vrhad...

在循环迭代之间使用整个缓存行有什么特别的好处吗?

作者:Matt 提问时间:6/19/2022

我的程序添加了浮点数组,并且在使用 MSVC 和 G++ 进行最大优化编译时展开了 4 倍。我不明白为什么两个编译器都选择展开 4x,所以我做了一些测试,发现只有偶尔在运行时进行 t 检验,用于手动展...

整数矢量化精度/整数除法精度是否取决于 CPU?

作者:György Kőszeg 提问时间:3/14/2023

我尝试对 16 位整数 ARGB 通道的 64 位颜色进行矢量化。 我很快意识到,由于缺乏加速整数除法支持,我需要将我的值转换为并显式使用一些 SSE2/SSE4.1 内部函数以获得最佳性能。尽管如...

将 UInt64 十六进制字符串转换为 UInt32 值的最快方法,保留尽可能多的前导数字,即截断

作者:Vas 提问时间:6/1/2023

我正在寻找将表示 ulong 的十六进制字符串解析为 uint 的最快方法,保留 uint 可以处理的尽可能多的前导数字并丢弃其余数字。例如 string hex = “0xab54a9a1df8a...

如何在Visual Studio 2015中仅禁用SIMD自动矢量化优化(适用于C++)?

作者:blipblop 提问时间:1/4/2017

我的问题只是如何在 Visual Studio 2015 中仅禁用 SIMD 自动矢量化优化(保留发布模式的其他优化): 1)正在编译的整个项目; 2)对于部分代码。 在第一种情况下,我想学习如...

编译 Rust 代码时是否缺少 AVX512 的目标功能?

作者:Chris 提问时间:9/2/2023

我编写了一些使用 AVX2 和 AVX512 指令来加速图像合成的 Rust 函数。我使用的是 AMD 7950x CPU。 当我运行时,我得到:RUSTFLAGS="-C target-cpu=n...


共36条 当前第3页