使用 MPI 和 CUDA 进行矩阵乘法 - 超级计算机上的多个 GPU 增加 GPU 时间
作者:MrZack 提问时间:11/4/2023
我正在研究一个矩阵乘法任务,该任务利用 MPI(消息传递接口)和 CUDA 进行并行处理。但是,我在对超级计算机的性能进行基准测试时遇到了一个意想不到的问题。具体来说,随着我增加使用的 GPU 数量,...
CUDA 问答列表
作者:MrZack 提问时间:11/4/2023
我正在研究一个矩阵乘法任务,该任务利用 MPI(消息传递接口)和 CUDA 进行并行处理。但是,我在对超级计算机的性能进行基准测试时遇到了一个意想不到的问题。具体来说,随着我增加使用的 GPU 数量,...
作者:huzzm 提问时间:2/27/2022
我正在使用 CUB 库的 GPU 基数排序算法对 N 个 32 位无符号整数进行排序,这些整数的值都只利用其 32 位中的 k,从最低有效位开始。 因此,我在调用 cub::D eviceRadix...
作者:Amir Fakhim Babaei 提问时间:5/10/2022
这个问题在这里已经有答案了: 静态数据成员初始化 (7 个答案) 什么是未定义的引用/未解析的外部符号错误,如何解决? (39 个答案) 去年关闭。 我在四个不同的文件中实现了两个类(每个文件分别为...
作者:Gagy Krayper 提问时间:5/3/2023
我有一个稳定、简单的 Gauss-Jordan 算法,用于计算 CPU 上的矩阵反演。我尝试将此算法传输到 GPU,它工作正常,但速度显着下降,大约 10 倍。我知道我不太精通 C++ 和 CUDA,...
作者:brice rebsamen 提问时间:7/1/2023
我正在寻找在推力内使用内存池的解决方案,因为我想将调用次数限制为 . 肯定接受分配器,但处理起来并不容易,显然会分配一个临时缓冲区。cudaMallocdevice_vectorthrust::sor...
作者:Cherry Toska 提问时间:7/13/2023
我有一个非常简单的矢量加法内核,为CUDA编写。 我想计算这个内核的算术强度和 GFLOP/s。 我计算的值与 Nsight Compute 的屋顶线分析部分获得的值明显不同。 由于我有一个非常简单...
作者:tommsch 提问时间:7/26/2023
我不明白以下代码的行为: template< bool b > struct Foo { Foo() = default; __host__ Foo( const Foo & ) require...
作者:TonyLic 提问时间:5/2/2012
实际上,我知道这是一个流行的链接问题,通常可以通过在 Visual Studio 配置中添加 #pragma(lib, “glu32.lib”) 或添加 glu32.lib 来解决。 但是,我的问题...