诽谤 问答列表

如何使用 SLURM 运行多个作业,每个 GPU 一个作业?

作者:Vivek 提问时间:10/28/2023

如果之前有人问过这个问题/回答过这个问题,我深表歉意,但即使在阅读了我能找到的所有内容之后,我也在努力让 SLURM 做我想做的事。 假设我有一台有 4 个 GPU 的机器。我想并行训练 4 个模型...

提交在多个 CPU 上并行运行的任务

作者:Simon 提问时间:11/8/2023

运行我的代码不需要太多时间。当我在笔记本电脑上启动多次运行时,我使用 joblib 并且效果很好。我现在想在基于 Slurm 的集群上启动我的运行。我不明白要问什么资源:在多个 CPU 上并行在 1 ...

Slurm,仅在有足够的内存可用时运行作业

作者:Wj210 提问时间:11/6/2023

如何使用 srun 在 slurm 上运行作业,以便在必要的资源(例如每个 gpu 的内存)不可用时进入队列,并且仅在可用时运行。 我尝试使用该标志,但它根本不遵守内存要求,并且我一直遇到 OOM ...

SLURM 数组 在 #SBATCH 选项中添加变量

作者:Emma Athan 提问时间:11/14/2023

我有一个 SLURM 阵列 #SBATCH --array=0-1000%10 我需要添加一个变量而不是“1000” 成为类似的东西 #! /bin/bash num=$1 #SBATCH ...


共4条 当前第1页