提问人:欧阳子遥 提问时间:11/17/2023 更新时间:11/17/2023 访问量:11
多GPU训练中的批量大小和数据加载器优化问题 [已结束]
The Issue of Batch Size and Data Loader Optimization in Multi-GPU Training [closed]
问:
专家。我有一个关于多GPU训练代码的问题。每个 GPU 的批量大小和dataloader_num是否有任何限制?原始代码有 batch_size=1 和 dataloader_num=4。我根据原始模型修改了网络结构,目前,代码在 batch_size=1 和 dataloader_num=4 的单个 GPU 上运行没有问题。但是,当我在单个 GPU 上设置 batch_size=1 和 dataloader=8 时,我遇到了一个错误:“进程已完成,退出代码为 137(被信号 9 中断:SIGKILL)”。在服务器上,当我设置 batch_size=2 和 dataloader=4 时,训练在处理了几千个样本后停止。命令行指示它被杀死,没有错误消息,但在训练过程中 GPU 内存使用率不断增加。 我想知道这可能是数据加载问题还是其他问题?
我尝试使用参数组合 (2, 4)、(1, 8) 和 (1, 4) 运行代码。我观察到只有组合 (1, 4) 是可执行的。
答: 暂无答案
评论