Simd知识经验-第3页-解网

作者：TToi 提问时间：12/11/2018

问题简述为什么我在 Metal 2.1 中使用浮点数从 Metal 2.1 中获得未定义的行为和函数？simd_minsimd_max 更新：似乎这只发生在 Radeon Pro 560X GP...

作者：rwallace 提问时间：4/19/2019

对于某些工作负载，双精度浮点数并不完全足够，因此需要四精度。这在硬件中很少提供，因此解决方法是使用 double-double，其中 128 位数字由一对 64 位数字表示。这不是真正的 IEEE-7...

作者：0xDEADBEEF 提问时间：3/7/2022

这个问题在这里已经有答案了：将 2 个 QWORD 从通用寄存器移动到 XMM 寄存器中作为高/低 [重复] （2 个答案）从 GP regs 加载 xmm （1 个答案）如何计算执行 rdts...

作者：terdev 提问时间：3/19/2022

我正在尝试使用 AMM 算法（近似矩阵乘法;在 Apple 的 M1 上），它完全基于速度并使用下面列出的 x86 内置函数。由于将 VM 用于 x86 会减慢算法中的几个关键进程，我想知道是否有另一...

作者：terdev 提问时间：3/22/2022

我想使用在 C++ 中执行汇编程序指令。我需要将以下函数映射到特定于 ARM 的指令（使用），因为给定的代码库是在 x86-64 上使用 ARM64 开发的。vrhadd__asm__vrhad...

作者：Matt 提问时间：6/19/2022

我的程序添加了浮点数组，并且在使用 MSVC 和 G++ 进行最大优化编译时展开了 4 倍。我不明白为什么两个编译器都选择展开 4x，所以我做了一些测试，发现只有偶尔在运行时进行 t 检验，用于手动展...

作者：György Kőszeg 提问时间：3/14/2023

我尝试对 16 位整数 ARGB 通道的 64 位颜色进行矢量化。我很快意识到，由于缺乏加速整数除法支持，我需要将我的值转换为并显式使用一些 SSE2/SSE4.1 内部函数以获得最佳性能。尽管如...

作者：Vas 提问时间：6/1/2023

我正在寻找将表示 ulong 的十六进制字符串解析为 uint 的最快方法，保留 uint 可以处理的尽可能多的前导数字并丢弃其余数字。例如 string hex = “0xab54a9a1df8a...

作者：blipblop 提问时间：1/4/2017

我的问题只是如何在 Visual Studio 2015 中仅禁用 SIMD 自动矢量化优化（保留发布模式的其他优化）： 1）正在编译的整个项目; 2）对于部分代码。在第一种情况下，我想学习如...

作者：Chris 提问时间：9/2/2023

我编写了一些使用 AVX2 和 AVX512 指令来加速图像合成的 Rust 函数。我使用的是 AMD 7950x CPU。当我运行时，我得到：RUSTFLAGS="-C target-cpu=n...