多GPU训练中的批量大小和数据加载器优化问题 [已结束]

The Issue of Batch Size and Data Loader Optimization in Multi-GPU Training [closed]

提问人:欧阳子遥 提问时间:11/17/2023 更新时间:11/17/2023 访问量:11

问:


这个问题似乎与特定的编程问题、软件算法或程序员主要使用的软件工具无关。如果您认为该问题在另一个 Stack Exchange 站点上是主题,您可以发表评论以解释在哪里可以回答该问题。

3天前关闭。

专家。我有一个关于多GPU训练代码的问题。每个 GPU 的批量大小和dataloader_num是否有任何限制?原始代码有 batch_size=1 和 dataloader_num=4。我根据原始模型修改了网络结构,目前,代码在 batch_size=1 和 dataloader_num=4 的单个 GPU 上运行没有问题。但是,当我在单个 GPU 上设置 batch_size=1 和 dataloader=8 时,我遇到了一个错误:“进程已完成,退出代码为 137(被信号 9 中断:SIGKILL)”。在服务器上,当我设置 batch_size=2 和 dataloader=4 时,训练在处理了几千个样本后停止。命令行指示它被杀死,没有错误消息,但在训练过程中 GPU 内存使用率不断增加。 我想知道这可能是数据加载问题还是其他问题?

我尝试使用参数组合 (2, 4)、(1, 8) 和 (1, 4) 运行代码。我观察到只有组合 (1, 4) 是可执行的。

人工智能

评论


答: 暂无答案