slurm 问答列表

SIGFPE - 错误的算术运算 - 在 Fortran 的 MPI_Init() 中

作者:H. Weirauch 提问时间:6/20/2023

使用 gfortran 标志编译时,MPI 并行 Fortran 2008 代码崩溃并出现浮点异常。-ffpe-trap 让我们考虑以下 MWE Fortran 程序: program mwe ...

如何计算 SLURM 多集群的start_time

作者:shambakey1 提问时间:11/5/2023

我很难弄清楚 Slurm 多集群环境中 2 个集群之间的作业分布。文档指出,每个作业都提交到提供最早开始时间的集群,一旦任务提交到集群,就无法将其重新分发到另一个集群。文件“<slurm_github...

使用 Debugpy 将调试器附加到 Slurm 计算节点

作者:Nicolai 提问时间:11/3/2023

我正在尝试调试在 SLURM 计算节点上运行的代码。我正在使用 VS Code 连接到我开发代码的头节点。要进行调试,我必须首先分配一个节点来访问 GPU。我试过了这个:https://stackov...

Slurm 不能在同一节点上设置不同的 Gpu 类型

作者:soulreaper 提问时间:11/6/2023

我正在尝试将显卡添加到 slurm 节点。目前,我有两个 p104 和一个 1080ti。我在设置 slurm.conf 和 gres.conf 时遇到问题。 我想为每个显卡分配一种类型 Slur...

使用 qsub 和 slurm 获取信息并请求资源

作者:21kondav 提问时间:7/17/2023

从本质上讲,可以选择两个计算集群来运行我的程序,一个用于学生,一个用于研究人员。我正在处理的代码用于诊断实验结果,因此我需要能够同时使用两者。grad 集群使用 slurm,研究集群使用 qsub。 ...

torch.distributed.get_world_size() 和 torch.cuda.device_count() 返回不同的数字,出现无效的设备序号错误

作者:DLS 提问时间:11/4/2023

我正在尝试在 pytorch 中的多个 GPU 之间使用张量并行化,特别是 2 个 Nvidia A100,以使用基于 slurm 的 HPC 将一个 GPU 太大的模型传播到多个 GPU 中。我的模...

'--dependendy=aftercorr:Submitted' slurm 选项无法识别

作者:Cynthia 提问时间:10/30/2023

我有一个脚本可以在 slurm 中运行。该脚本适用于 job-array aftercorr,或者至少这是我希望它做的事情。基本上,它运行第一个 Job-array 没有任何问题,但是,它无法识别命令...

如何在 SLURM 中将作业发送到不同类型的节点

作者:Willy 提问时间:11/2/2023

我在一家 HPC 中心工作,我们使用 SLURM 来管理队列,我正在寻找一种方法来强制将按任务划分的作业发送到不同类型的节点。例如,假设我们有两种类型的节点,分别称为 lpn 和 hpn,我们希望将一...

更改 RUNNING Slurm 作业的 CPU 计数

作者:Mike Nathas 提问时间:9/5/2019

我有一个 SLURM 集群和一个正在运行的作业,我在其中请求了 60 个线程 #SBATCH --cpus-per-task=60 (我正在使用 cgroups 在节点上共享线程) 我现在想将...

“Program received signal SIGSEGV: Segmentation fault - invalid memory reference.”(程序接收信号 SIGSEGV:分段故障 - 内存引用无效)“(当使用大型数组和MPI_BARRIER时)

作者:Aaron Wang 提问时间:1/12/2023

我使用带有 MPI(CRAY 的编译器)的 Fortran 作为我的代码。我使用了 512 个内核,我发现当我的变量超过一定大小时,代码在 MPI_BARRIER 时崩溃,错误消息是 Program...


共15条 当前第1页