常见问题


0.为什么集群叫 π?有什么含义?

  1. π在希腊文里具有并行的涵义;
  2. π是无限不循环的无理数,是人类理解无限的开始;
  3. π的精确计算是人类使用计算机解决科学问题的代表;
  4. π可看作交通大学首字母J和T的组合。

1.账号申请和登陆

1.1 Q:如何开通账号?

A: 请先阅读https://net.sjtu.edu.cn/wlfw/gxnjsfw.htm操作说明,填写《上海交通大学高性能计算申请表》,无需盖章直接发送至hpc邮箱,账号申请人必须为在校教师(含博士后)。我们将会在两个工作日内开通账号并将账号信息发送至您的邮箱。

1.2 Q:我为什么连不上集群?

A: 1. 请首先保证网络畅通。
2. 集群登陆节点设置了fail2ban服务,当您多次输入密码错误后会被临时封禁1小时,请稍事等待后再尝试。如果您需要重置密码,请使用或抄送账号负责人邮箱发送邮件到hpc邮箱,邮件中注明账号,我们将会在1个工作日内响应您的申请。 3. 如果您在登陆节点运行计算密集的作业,将会被程序自动查杀,您的账号会被加入到黑名单,并在30-120分钟内无法登陆。

1.3 Q:为什么连上了集群,过一会儿又断了?

A: 请参考SSH下的登陆常掉线的问题章节进行设置。

1.4 Q:是不是只有教职工才能申请帐号?学生要使用超算该怎么办?

A: 是的。只有教职工(含博士后)才能申请主账号。一个主账号下面可以免费开通4个子账号。子账号之间可以设置目录访问权限,保证数据在子帐号之间共享。

1.5 Q:子账号的申请和费用?

A: 发送子账号申请至hpc邮箱,申请内容需包含自定义的子账号名,格式为xxx-yyy,其中xxx为主账号,yyy可以自定义,比如user1、user2。我们将在两个工作日内为您开通。每个主账号下可以免费开通4个子账号,超出之后,每个子帐号收取200元/年的管理费。

2.作业提交和运行

2.1 Q:单个作业最长运行时间是多长?

A: cpu, small 和 dgx2 队列上的作业运行时间最长 7 天。huge 和 192c6t 运行时间最长 2 天。 具体时间限制可以通过 scontrol show partition 命令查看 MaxTime 参量。

2.2 Q:我的作业运行将超过最长时间限制,有没有办法延长运行时限?

A: 有。请将您的作业号发送到hpc邮箱,我们将会为您延长。需要注意的是:30天作业的排队时间可能会较长,且运行超过7天后意外终止的作业不做返还或诊断。

2.3 Q:我的作业需要大内存怎么办?

A: 目前集群有huge节点可以提供较大的内存。huge节点每节点提供3T内存,集群有2台。要提交到huge节点,请参考以下脚本头:

#SBATCH -J huge-test
#SBATCH -p huge
#SBATCH --mail-type=all
#SBATCH --mail-user=YOU@EMAIL.COM
#SBATCH -o %j.out
#SBATCH -e %j.err
#SBATCH --ntasks-per-node=80
#SBATCH --time=2-00:00:00

2.4 Q 如何预约节点?

A: 请将您的账号,要使用的节点类型和数量,以及预约资源使用时间发送至hpc邮箱。需要注意的是:
  1.资源预约不收取额外手续费,因此我们会动态调整用户的可用资源数,避免预约资源闲置浪费;
  2. 申请人向hpc邮箱提交申请,管理员分配 --reservation 后就可以提交作业进行排队,不需要等待预约资源就绪;
  3. 预约资源使用时间一般不超过两周。

2.5 Q 如何缩短作业排队时间?

A: 用户可以通过指定合理的作业运行时间、向管理员预约资源、向管理员申请提高作业优先级等方法,来缩短作业排队时间。在作业脚本中使用 --time 参数指定作业的最长运行时间,可促使SLURM采取更激进的调度策略,从而缩短该作业的排队时间。对于近期有紧急大规模计算任务的用户,可向管理员免费预约专属资源池,只要资源池有可用节点,用户作业就无需排队。为了优化集群利用率并照顾公平性,管理员将动态调整预约的资源池大小,避免预约资源闲置浪费。资源池使用一般不超过2周,收到管理员分配 --reservation 后就可以提交作业进行排队,不需要等待预约资源就绪。对于短期内有大量紧急小规模计算任务的用户,可向管理员免费申请提高排队优先级。具有高优先级的用户将以更高的优先级获得计算资源使用权,且不需要修改作业脚本,最多可同时使用超过100个节点,可连续使用1个月。

3.作业出错

3.1 Q:为什么我的作业运行结果是作业运行结果是node_fail,该怎么处理?

A: node_fail是提示由于计算节点故障导致作业运行失败。您重新提交作业即可。失败作业的机时系统会自动返还,您无须发邮件告诉我们。

3.2 Q:为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?

A: 登陆节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登陆节点设置了任务检测服务,查杀不正常占用登陆节点资源的任务,若被检测到您的账号不当使用登陆节点,您的账号将会被封禁30-120分钟。请务必将这些任务提交到计算节点进行。

4.软件安装

4.1 Q:如何在超算上安装开源软件?

A: 请查看应用软件 获取已有软件信息。如未找到所需的软件信息,请发送邮件至hpc邮箱获取帮助。

4.2 Q:超算上是否提供商业软件?

A: 目前暂不提供商业软件,不过您可以自行购买后安装。以下是注意事项:
    商业软件License通常需要使用专用的License服务器, 在购买商业软件并尝试在 π 集群上部署License服务器前,请与我们以及软件厂商进行充分沟通,请注意:
    1) 不要把License绑定到Pi集群的登录节点;
    2) 请购买浮动授权,即计算程序可以在集群上的任意一个节点启动,通常需要安装特定的License服务器;
    3) 询问License服务器是否可以部署在虚拟机上,这样我们可以专门开一台虚拟机运行您的License服务器;
    4) 与厂商充分沟通License服务器安装模式、授权数量、使用限制、更换MAC地址的费用以及厂商具备基本的技术支持能力。如果需要了解 π 集群的软硬件信息,可以在交流过程中抄送hpc邮箱

4.3 Q: 普通用户如何使用sudo安装软件?

A: 有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用sudo特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用sudo。通常普通用户无需sudo就能在家目录中安装和使用软件,且使用sudo安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。请参考 https://pi.sjtu.edu.cn/doc/modules/ 了解当前集群提供的软件模块或通过hpc邮箱告诉我们需要安装的软件。对于需要sudo安装的商业软件,请参考 FAQ 4.2 由软件厂商工程师工程师联系我们指定安装方案。

4.4 Q:超算上是否提供matlab?

A: 目前我们暂不提供商业软件,且学校提供的单机版matlab并不适用于π集群。对于您使用集群版matlab的需求,我们建议您联系校云计算平台许天老师开通云主机账号,目前云计算平台提供了免费正版集群版matlab给全校师生使用。

5.机时和收费

5.1 Q:如何收费?

A: 请发送邮件至hpc邮箱咨询。

5.2 Q:如何查看账户余额?

A: 您可以使用主账号登陆 https://account.hpc.sjtu.edu.cn 查看。

5.3 Q:有没有机时奖励政策?

A: 目前新的收费政策正在商讨中,预计将于近期公布。在此之前已有的奖励机时仍然生效。

5.4 Q:电子信息与电气工程学院优惠政策怎么申请?(仅适用于电院老师)

A: 申请电院优惠政策的老师,请参考http://dzb.seiee.sjtu.edu.cn/dzb/info/15820.htm
    申请表下载地址:http://dzb.seiee.sjtu.edu.cn/dzb/info/15825.htm

6.邮件支持

6.1 Q 向hpc邮箱发送的邮件多久才能收到回复?

A: 根据邮件内容不同,下面是响应周期:
   1. 邮件确认:1个工作日内;
   2. 编译 Spack 已有的软件包:2个工作日内;
   3. 调整作业脚本:1个工作日内;
   4. 排查异常中断作业:2~3个工作日内;
   5. 新建帐号:2个工作日内;
   6. 编译不包含在Spack或自行开发的软件包:1~2周内。

7.致谢模版

Q 如何在论文中致谢交大高性能计算?

A: 致谢模版如下。欢迎大家将已接收的高质量成果邮件分享给我们。

   (中文)本论文的计算结果得到了上海交通大学高性能计算中心的支持和帮助。

   (英文)The computations in this paper were run on the π 2.0 cluster supported by the Center for High Performance Computing at Shanghai Jiao Tong University.