多GPU训练中的批量大小和数据加载器优化问题 [已结束]-解网

问：

这个问题似乎与特定的编程问题、软件算法或程序员主要使用的软件工具无关。如果您认为该问题在另一个 Stack Exchange 站点上是主题，您可以发表评论以解释在哪里可以回答该问题。

3天前关闭。

改进此问题

专家。我有一个关于多GPU训练代码的问题。每个 GPU 的批量大小和dataloader_num是否有任何限制？原始代码有 batch_size=1 和 dataloader_num=4。我根据原始模型修改了网络结构，目前，代码在 batch_size=1 和 dataloader_num=4 的单个 GPU 上运行没有问题。但是，当我在单个 GPU 上设置 batch_size=1 和 dataloader=8 时，我遇到了一个错误：“进程已完成，退出代码为 137（被信号 9 中断：SIGKILL）”。在服务器上，当我设置 batch_size=2 和 dataloader=4 时，训练在处理了几千个样本后停止。命令行指示它被杀死，没有错误消息，但在训练过程中 GPU 内存使用率不断增加。我想知道这可能是数据加载问题还是其他问题？

我尝试使用参数组合（2， 4）、（1， 8）和（1， 4）运行代码。我观察到只有组合（1， 4）是可执行的。

人工智能

多GPU训练中的批量大小和数据加载器优化问题 [已结束]

The Issue of Batch Size and Data Loader Optimization in Multi-GPU Training [closed]

评论