使用 MPI 和 CUDA 进行矩阵乘法 - 超级计算机上的多个 GPU 增加 GPU 时间
作者:MrZack 提问时间:11/4/2023
我正在研究一个矩阵乘法任务,该任务利用 MPI(消息传递接口)和 CUDA 进行并行处理。但是,我在对超级计算机的性能进行基准测试时遇到了一个意想不到的问题。具体来说,随着我增加使用的 GPU 数量,...
OpenMP 问答列表
作者:MrZack 提问时间:11/4/2023
我正在研究一个矩阵乘法任务,该任务利用 MPI(消息传递接口)和 CUDA 进行并行处理。但是,我在对超级计算机的性能进行基准测试时遇到了一个意想不到的问题。具体来说,随着我增加使用的 GPU 数量,...
作者:Viceversa 提问时间:11/7/2023
我在使用 omp.h 库时遇到问题。任务是创建和测试一种使用高斯方法求解方程的算法,使用具有大量方程(从 500 个)的示例。串行和并行模式下执行时间的差异应该可见。我的代码在串行模式下显示 1.14...
作者:Pavle Šarenac 提问时间:11/7/2023
我认为 和 变量可能是外循环潜在并行化中线程的减少变量。我只是有点困惑这种并行化是否真的是可能的,因为在内部循环中正在发生变化,那么这是否意味着外部循环的迭代是相互依赖的,并且由于这个原因并行化是不可...
作者:Om Mistry 提问时间:10/14/2023
我正在尝试使用 OpenMP 在 Clion 上运行 C 程序。我之前的所有程序都运行了,但由于某种原因,这个程序没有运行。我在我的main.c文件中包含了以下内容: #include "qdbmp...
作者:Andrew Chedid 提问时间:11/12/2023
我正在尝试在 GPU 上运行 OMP for 循环,该循环使用 pow 来计算值的幂,并且在为 GPU 运行 openMP 时,它无法识别 pow 函数 #pragma omp target tea...
作者:Дмитрий Першуков 提问时间:11/16/2023
闭。这个问题不可重现或是由错别字引起的。它目前不接受答案。 这个问题是由错别字或无法再现的问题引起的。虽然类似的问题可能在这里是主题,但这个问题的解决方式不太可能帮助未来的读者。 6天前关闭。 ...
作者:Mono 提问时间:11/16/2023
我有以下代码结构,并希望在使用 OpenMP 时并行化循环:function2 // main.cpp for (int i = 0; i < 1000; ++i) { function1(); ...
作者:MK-3PP 提问时间:11/14/2023
已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 8天前关闭。 这篇文章在 8 天前经过编辑并提交审核。 改进此问题 我们...
作者:NoseKnowsAll 提问时间:11/17/2023
我遇到了纯 MPI 和混合 MPI+OpenMP 之间的边缘情况,我不确定如何让 MPI+OpenMP 做我想做的事,但也担心我遇到了 XY 问题。 假设我在一台具有 64 个内核的机器上运行一个由...
作者:Samuel 提问时间:11/17/2023
Cuda 是否提供了一种使用主机上的可分页内存在不同设备之间获得异步性的方法?(请注意,这与在单个设备上阻止可分页内存的永无止境的问题无关)cudaMemcpyAsync 背景如下:在访问具有多个 ...