交我算集群队列介绍¶
思源一号集群¶
思源一号集群设置以下队列,使用限制与说明如下
队列名 |
说明 |
---|---|
64c512g |
允许单作业CPU核数为1~60000,每核配比8G内存;单节点配置为64核,512G内存 |
a100 |
允许单作业GPU卡数为1~92,推荐每卡配比CPU为16,每CPU配比8G内存;单节点配置为64核,512G内存,4块40G显存的A100卡 |
该集群另外设置了调试队列 debug64c512g 和 debuga100 ,仅用于短时间测试,请勿批量投递作业进行完整计算。 debug64c512g 作业最多申请2节点,运行60分钟。 debuga100 作业最多申请1节点,运行20分钟。
π 2.0 和 AI 集群¶
π 2.0 和 AI 集群设置以下队列,使用限制与说明如下
队列名 |
说明 |
---|---|
cpu |
允许单作业CPU核数为1~24000,每核配比4G内存,节点可共享使用;单节点配置为40核,192G内存 |
huge |
允许单作业CPU核数为6~80,每核配比35G内存,节点可共享使用;单节点配置为80核,3T内存 |
192c6t |
允许单作业CPU核数为48~192,每核配比31G内存,节点可共享使用;单节点配置为192核,6T内存 |
dgx2 |
允许单作业GPU卡数为1~128,推荐每卡配比CPU为6,每CPU配比15G内存;单节点配置为96核,1.45T内存,16块32G显存的V100卡 |
π 2.0集群也设置了 debug 队列用于短时间测试,作业最多申请2节点,最长运行时间为20分钟。
ARM 集群¶
ARM 集群设置以下队列,使用限制与说明如下
队列名 |
说明 |
---|---|
arm128c256g |
允许单作业CPU核数为1~12800,每核配比2G内存;单节点配置为128核,256G内存 |
以上信息在各集群登录界面均有展示。
各队列默认运行时长¶
huge 和 192c6t 队列默认的作业运行最长时间为 2 天,其余队列默认的作业运行最长时间为 7 天。
若预计超出 7 天,需提前 2 天发邮件告知用户名和 jobID 以便延长时限。延长后的作业最长运行时间不超过 14 天。