关于将数据从设备复制到主机时的推力::execution_policy
作者:huzzm 提问时间:9/6/2020
我曾经在多 GPU 系统中将数据从设备传输到主机。每个 GPU 都有一个大小相等的数据分区。使用 OpenMP,我在每台设备上调用该函数。在我目前的系统上,我正在使用 4 个 GPU。thrust::...
推力 问答列表
作者:huzzm 提问时间:9/6/2020
我曾经在多 GPU 系统中将数据从设备传输到主机。每个 GPU 都有一个大小相等的数据分区。使用 OpenMP,我在每台设备上调用该函数。在我目前的系统上,我正在使用 4 个 GPU。thrust::...
作者:huzzm 提问时间:2/27/2022
我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序,这些整数的值都只利用其 32 位中的 k,从最低有效位开始。 因此,我在调用 cub::D eviceRadix...
作者:brice rebsamen 提问时间:7/1/2023
我正在寻找在推力内使用内存池的解决方案,因为我想将调用次数限制为 . 肯定接受分配器,但处理起来并不容易,显然会分配一个临时缓冲区。cudaMallocdevice_vectorthrust::sor...
作者:MrHowever 提问时间:11/16/2023
闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 6天前关闭。 改进此问题 我有一个调用thru...
作者:ha ze 提问时间:11/15/2023
描述: 我正在使用 CUDA Thrust 并行化神经网络实现,并在将向后传播功能集成到我的 Unit 类中时遇到问题,这是该实现的核心。代码在没有向后传播功能的情况下运行,但当包含时,生成失败,没有...