Slurm,仅在有足够的内存可用时运行作业

Slurm, run job only when sufficient memory is available

提问人:Wj210 提问时间:11/6/2023 更新时间:11/6/2023 访问量:21

问:

如何使用 srun 在 slurm 上运行作业,以便在必要的资源(例如每个 gpu 的内存)不可用时进入队列,并且仅在可用时运行。

我尝试使用该标志,但它根本不遵守内存要求,并且我一直遇到 OOM 问题。由于服务器正在积极使用,因此我无法跟踪 GPU 何时释放。mem-per-gpu

标志 --exclusive 还保留了整个节点,这可能没有帮助,因为我只想在节点内使用一定数量的 gpu。

期望将作业排队,直到有足够的内存可用。

诽谤

评论

0赞 Poshi 11/6/2023
从理论上讲,SLURM 应该只在资源可用时才为您提供资源。并非所有共享节点的作业都要求足够的内存。SLURM 应该在 OoM 启动之前及时捕获它们,但某些配置无法保证及时捕获它们。与您的系统管理员交谈,并检查是否为资源控制和限制启用了 cgroups。

答: 暂无答案