如何使用 SLURM 运行多个作业,每个 GPU 一个作业?
作者:Vivek 提问时间:10/28/2023
如果之前有人问过这个问题/回答过这个问题,我深表歉意,但即使在阅读了我能找到的所有内容之后,我也在努力让 SLURM 做我想做的事。 假设我有一台有 4 个 GPU 的机器。我想并行训练 4 个模型...
诽谤 问答列表
作者:Vivek 提问时间:10/28/2023
如果之前有人问过这个问题/回答过这个问题,我深表歉意,但即使在阅读了我能找到的所有内容之后,我也在努力让 SLURM 做我想做的事。 假设我有一台有 4 个 GPU 的机器。我想并行训练 4 个模型...
作者:Simon 提问时间:11/8/2023
运行我的代码不需要太多时间。当我在笔记本电脑上启动多次运行时,我使用 joblib 并且效果很好。我现在想在基于 Slurm 的集群上启动我的运行。我不明白要问什么资源:在多个 CPU 上并行在 1 ...
作者:Wj210 提问时间:11/6/2023
如何使用 srun 在 slurm 上运行作业,以便在必要的资源(例如每个 gpu 的内存)不可用时进入队列,并且仅在可用时运行。 我尝试使用该标志,但它根本不遵守内存要求,并且我一直遇到 OOM ...
作者:Emma Athan 提问时间:11/14/2023
我有一个 SLURM 阵列 #SBATCH --array=0-1000%10 我需要添加一个变量而不是“1000” 成为类似的东西 #! /bin/bash num=$1 #SBATCH ...