如何计算 SLURM 多集群的start_time

how start_time is calculated for slurm multi-cluster

提问人:shambakey1 提问时间:11/5/2023 更新时间:11/5/2023 访问量:18

问:

我很难弄清楚 Slurm 多集群环境中 2 个集群之间的作业分布。文档指出,每个作业都提交到提供最早开始时间的集群,一旦任务提交到集群,就无法将其重新分发到另一个集群。文件“<slurm_github+repository>/src/common/slurmdb_defs.c”列出了选择合适集群的3个比较标准:1)首先,它调查了启动时间最早的集群。2) 如果两个集群的开始时间相等,则具有较低preempt_cnt的集群。3) 如果相等,则选择本地集群。

  1. 我想知道开始时间是如何计算的。我试图从中推断出它 源代码,但我迷失在代码中。是计算 每个作业,以及所有作业中最少的 被选为集群的?start_time+job_execution_timestart_time
  2. 如果 2 个或更多作业几乎同时提交(即,在任何任务修改开始时间之前),是否有可能看到集群的相同开始时间?因为在我看来是这样,因为一个集群接收了大部分作业,而另一个集群的负载要少得多(处理器更快)

问候

SLURM HPC

评论


答: 暂无答案