推力知识经验-解网

作者：huzzm 提问时间：9/6/2020

我曾经在多 GPU 系统中将数据从设备传输到主机。每个 GPU 都有一个大小相等的数据分区。使用 OpenMP，我在每台设备上调用该函数。在我目前的系统上，我正在使用 4 个 GPU。thrust::...

作者：huzzm 提问时间：2/27/2022

我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序，这些整数的值都只利用其 32 位中的 k，从最低有效位开始。因此，我在调用 cub：:D eviceRadix...

作者：brice rebsamen 提问时间：7/1/2023

我正在寻找在推力内使用内存池的解决方案，因为我想将调用次数限制为 . 肯定接受分配器，但处理起来并不容易，显然会分配一个临时缓冲区。cudaMallocdevice_vectorthrust::sor...

作者：MrHowever 提问时间：11/16/2023

闭。此问题需要调试详细信息。它目前不接受答案。编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 6天前关闭。改进此问题我有一个调用thru...

作者：ha ze 提问时间：11/15/2023

描述：我正在使用 CUDA Thrust 并行化神经网络实现，并在将向后传播功能集成到我的 Unit 类中时遇到问题，这是该实现的核心。代码在没有向后传播功能的情况下运行，但当包含时，生成失败，没有...