思源一号使用文档¶
杨元庆科学计算中心“思源一号”高性能计算集群总算力 6 PFLOPS(每秒六千万亿次浮点运算),是目前国内高校第一的超算集群。
CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 936 个计算节点;GPU 采用 NVIDIA HGX A100 4-GPU,
共 23 个计算节点。计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB。
思源一号为独立集群,使用dssg文件系统,采用SLURM作业调度,提交方式与π 2.0一致,CPU和GPU队列名分别为64c512g和a100。
思源一号 使用须知¶
思源一号为独立集群,使用dssg文件系统,与π 2.0文件系统隔离但是数据互通,两个文件系统共享每课组3TB的免费存储配额
思源一号 登录¶
思源一号配备单独的登录节点,SSH 登录命令如下:
$ ssh username@sylogin1.hpc.sjtu.edu.cn
思源一号 应用支持¶
思源一号为独立集群,部署的软件和编译器版本与π 2.0不同
应用查看:(在 思源一号登录节点或计算节点)
module av
命令;应用加载:(在 思源一号计算节点)
module load
命令;
思源一号 脚本示例¶
思源一号slurm脚本示例:单节点不满核(例如20核),共享使用节点
#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=64c512g
#SBATCH -N 1
#SBATCH --ntasks-per-node=20
#SBATCH --output=%j.out
#SBATCH --error=%j.err
module load XXX
mpirun -n $SLURM_NTASKS ...
思源一号slurm脚本示例:单节点不满核(例如20核),独占使用节点
#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=64c512g
#SBATCH -N 1
#SBATCH --ntasks-per-node=20
#SBATCH --output=%j.out
#SBATCH --error=%j.err
#SBATCH --exclusive # 独占节点
module load XXX
mpirun -n $SLURM_NTASKS ...
注意:如使用 --exclusive
即表示独占节点64核全部计算资源,无论程序实际运行核数,均按64核进行计费。
思源一号slurm脚本示例:单节点满核(64核)
#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=64c512g
#SBATCH -N 1
#SBATCH --ntasks-per-node=64
#SBATCH --output=%j.out
#SBATCH --error=%j.err
module load XXX
mpirun -n $SLURM_NTASKS ...
思源一号slurm脚本示例:多节点满核(例如4节点256核)
#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=64c512g
#SBATCH -N 4
#SBATCH --ntasks-per-node=64
#SBATCH --output=%j.out
#SBATCH --error=%j.err
module load XXX
mpirun -n $SLURM_NTASKS ...
用以下方式提交作业(请注意,思源一号作业请在思源一号的登录节点或计算节点提交):
$ sbatch siyuan.slurm
squeue
可用于检查作业状态。
思源一号交互作业示例¶
srun
可以启动交互式作业。该操作将阻塞,直到完成或终止。启动远程主机 bash 终端的命令:
$ srun -p 64c512g -n 4 --pty /bin/bash