浮点数的金属 SIMD 最小值和最大值操作失败
作者:TToi 提问时间:12/11/2018
问题简述 为什么我在 Metal 2.1 中使用浮点数从 Metal 2.1 中获得未定义的行为和函数?simd_minsimd_max 更新:似乎这只发生在 Radeon Pro 560X GP...
Simd 问答列表
作者:TToi 提问时间:12/11/2018
问题简述 为什么我在 Metal 2.1 中使用浮点数从 Metal 2.1 中获得未定义的行为和函数?simd_minsimd_max 更新:似乎这只发生在 Radeon Pro 560X GP...
作者:rwallace 提问时间:4/19/2019
对于某些工作负载,双精度浮点数并不完全足够,因此需要四精度。这在硬件中很少提供,因此解决方法是使用 double-double,其中 128 位数字由一对 64 位数字表示。这不是真正的 IEEE-7...
作者:0xDEADBEEF 提问时间:3/7/2022
这个问题在这里已经有答案了: 将 2 个 QWORD 从通用寄存器移动到 XMM 寄存器中作为高/低 [重复] (2 个答案) 从 GP regs 加载 xmm (1 个答案) 如何计算执行 rdts...
作者:terdev 提问时间:3/19/2022
我正在尝试使用 AMM 算法(近似矩阵乘法;在 Apple 的 M1 上),它完全基于速度并使用下面列出的 x86 内置函数。由于将 VM 用于 x86 会减慢算法中的几个关键进程,我想知道是否有另一...
作者:terdev 提问时间:3/22/2022
我想使用 在 C++ 中执行汇编程序指令。 我需要将以下函数映射到特定于 ARM 的指令(使用 ),因为给定的代码库是在 x86-64 上使用 ARM64 开发的。vrhadd__asm__vrhad...
作者:Matt 提问时间:6/19/2022
我的程序添加了浮点数组,并且在使用 MSVC 和 G++ 进行最大优化编译时展开了 4 倍。我不明白为什么两个编译器都选择展开 4x,所以我做了一些测试,发现只有偶尔在运行时进行 t 检验,用于手动展...
作者:György Kőszeg 提问时间:3/14/2023
我尝试对 16 位整数 ARGB 通道的 64 位颜色进行矢量化。 我很快意识到,由于缺乏加速整数除法支持,我需要将我的值转换为并显式使用一些 SSE2/SSE4.1 内部函数以获得最佳性能。尽管如...
作者:Vas 提问时间:6/1/2023
我正在寻找将表示 ulong 的十六进制字符串解析为 uint 的最快方法,保留 uint 可以处理的尽可能多的前导数字并丢弃其余数字。例如 string hex = “0xab54a9a1df8a...
作者:blipblop 提问时间:1/4/2017
我的问题只是如何在 Visual Studio 2015 中仅禁用 SIMD 自动矢量化优化(保留发布模式的其他优化): 1)正在编译的整个项目; 2)对于部分代码。 在第一种情况下,我想学习如...
作者:Chris 提问时间:9/2/2023
我编写了一些使用 AVX2 和 AVX512 指令来加速图像合成的 Rust 函数。我使用的是 AMD 7950x CPU。 当我运行时,我得到:RUSTFLAGS="-C target-cpu=n...