Slurm基本用法(入门必看)
生活随笔
收集整理的這篇文章主要介紹了
Slurm基本用法(入门必看)
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
本文描述Linux集群的基本Slurm用法。
1. 一個(gè)簡(jiǎn)單的Slurm腳本
2. 提交作業(yè)
3.列出作業(yè)
4. 獲取作業(yè)細(xì)節(jié)
5.Suspend a job (root only)
6.Resume a job (root only)
7.Kill a job
用戶可以殺死自己的作業(yè),root可以殺死任何作業(yè)。
8.Hold a job
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
139 defq simple rstober PD 0:00 1 (Dependency)
138 defq simple rstober R 0:16 1 atom01
$ scontrol hold 139
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
139 defq simple rstober PD 0:00 1 (JobHeldUser)
138 defq simple rstober R 0:32 1 atom01
9.Release a job
$ scontrol release 139
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
139 defq simple rstober PD 0:00 1 (Dependency)
138 defq simple rstober R 0:46 1 atom01
10.List partitions
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
defq* up infinite 1 down* atom04
defq* up infinite 3 idle atom[01-03]
cloud up infinite 2 down* cnode1,cnodegpu1
cloudtran up infinite 1 idle atom-head1
11. 作業(yè)依賴
首先提交一個(gè)簡(jiǎn)單的作業(yè):
#!/usr/bin/env bash
#SBATCH -p defq
#SBATCH -J simple
sleep 60
Submit the job
$ sbatch simple.sh
Submitted batch job 149
現(xiàn)在,我們將提交另一個(gè)依賴于先前作業(yè)的作業(yè)。 有許多方法可以指定依賴條件,但是“singleton ”是最簡(jiǎn)單的。 Slurm -d singleton 參數(shù)告訴Slurm在之前所有具有相同名稱的作業(yè)完成之前不要調(diào)度此作業(yè)。
$ sbatch -d singleton simple.sh
Submitted batch job 150
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
150 defq simple rstober PD 0:00 1 (Dependency)
149 defq simple rstober R 0:17 1 atom01
前提作業(yè)完成后,將調(diào)度從屬作業(yè)。
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
150 defq simple rstober R 0:31 1 atom01
PS:
Slurm China社區(qū),群里有很多大牛,感興趣的同學(xué)可以加入。二維碼失效了可以看評(píng)論區(qū)留言加我V。
總結(jié)
以上是生活随笔為你收集整理的Slurm基本用法(入门必看)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Travis CI 配置文件 .trav
- 下一篇: Windows 环境下 git 客户端中