交我算集群队列介绍

思源一号集群

思源一号集群设置以下队列,使用限制与说明如下

队列名

说明

64c512g

允许单作业CPU核数为1~60000,每核配比8G内存;单节点配置为64核,512G内存

a100

允许单作业GPU卡数为1~92,推荐每卡配比CPU为16,每CPU配比8G内存;单节点配置为64核,512G内存,4块40G显存的A100卡

该集群另外设置了调试队列 debug64c512g 和 debuga100 ,仅用于短时间测试,请勿批量投递作业进行完整计算。 debug64c512g 作业最多申请2节点,运行60分钟。 debuga100 作业最多申请1节点,运行20分钟。

π 2.0 和 AI 集群

π 2.0 和 AI 集群设置以下队列,使用限制与说明如下

队列名

说明

cpu

允许单作业CPU核数为1~24000,每核配比4G内存,节点可共享使用;单节点配置为40核,192G内存

huge

允许单作业CPU核数为6~80,每核配比35G内存,节点可共享使用;单节点配置为80核,3T内存

192c6t

允许单作业CPU核数为48~192,每核配比31G内存,节点可共享使用;单节点配置为192核,6T内存

dgx2

允许单作业GPU卡数为1~128,推荐每卡配比CPU为6,每CPU配比15G内存;单节点配置为96核,1.45T内存,16块32G显存的V100卡

π 2.0集群也设置了 debug 队列用于短时间测试,作业最多申请2节点,最长运行时间为20分钟。

ARM 集群

ARM 集群设置以下队列,使用限制与说明如下

队列名

说明

arm128c256g

允许单作业CPU核数为1~12800,每核配比2G内存;单节点配置为128核,256G内存

以上信息在各集群登录界面均有展示。

各队列默认运行时长

huge 和 192c6t 队列默认的作业运行最长时间为 2 天,其余队列默认的作业运行最长时间为 7 天。

若预计超出 7 天,需提前 2 天发邮件告知用户名和 jobID 以便延长时限。延长后的作业最长运行时间不超过 14 天。


最后更新: 2024 年 04 月 30 日