常见问题


0.集群名为 π 有什么含义?

  1. π 在希腊文里具有并行的涵义;
  2. π 是无限不循环的无理数,是人类理解无限的开始;
  3. π 的精确计算是人类使用计算机解决科学问题的代表;
  4. π 可看作交通大学首字母J和T的组合。

1.账号申请和登陆

1.1 Q:如何开通账号?

A: 请先阅读 网络信息中心高性能计算服务 ,填写《上海交通大学高性能计算申请表》,无需盖章直接发送至 hpc 邮箱,账号申请人必须为在校教师(含博士后)。我们将会在两个工作日内开通账号并将账号信息发送至您的邮箱。

1.2 Q:我为什么连不上集群?

A: 1. 请首先保证网络畅通。
2. 集群登陆节点设置了 fail2ban 服务,多次输入密码错误后会被临时封禁 1 小时。如果您需要重置密码,请使用或抄送账号负责人邮箱发送邮件到 hpc邮箱,邮件中注明账号,我们将会在 1 个工作日内响应您的申请。 3. 如果您在登陆节点运行计算密集的作业,将会被程序自动查杀,您的账号会被加入到黑名单,并在 30-120 分钟内无法登陆。

1.3 Q:为什么连上了集群,过一会儿又断了?

A: 请参考 SSH 下的 登陆常掉线的问题章节进行设置。

1.4 Q:是不是只有教职工才能申请帐号?学生要使用超算该怎么办?

A: 是的。只有教职工(含博士后)才能申请主账号。一个主账号下面可以免费开通4个子账号。子账号之间可以设置目录访问权限,保证数据在子帐号之间共享。

1.5 Q:子账号的申请和费用?

A: 发送子账号申请至 hpc邮箱,申请内容需包含自定义的子账号名,格式为xxx-yyy,其中xxx为主账号,yyy可以自定义,比如user1、user2。我们将在两个工作日内为您开通。每个主账号下可以免费开通4个子账号,超出之后,每个子帐号收取200元/年的管理费。

2.作业提交和运行

2.1 Q:单个作业最长运行时间是多长?

A: cpu, small 和 dgx2 队列上的作业运行时间最长 7 天。huge 和 192c6t 运行时间最长 2 天。 具体时间限制可以通过 scontrol show partition 命令查看 MaxTime 参量。

2.2 Q:我的作业运行将超过最长时间限制,有没有办法延长运行时限?

A: 请将您的作业号发送到 hpc邮箱,我们将会为您延长。需要注意的是:30 天作业的排队时间可能会较长,且运行超过 7 天后意外终止的作业不做返还或诊断。

2.3 Q:我的作业需要大内存怎么办?

A: 目前集群有 huge 和 192c6t 节点可以提供较大的内存。huge节点每节点提供3T内存,集群有2台。具体参考 作业示例

2.4 Q 如何缩短作业排队时间?

A: 用户可以通过指定合理的作业运行时间来缩短作业排队时间。在作业脚本中使用 --time 参数指定作业的最长运行时间,可促使 slurm 采取更激进的调度策略,从而缩短该作业的排队时间。

3.作业出错

3.1 Q:为什么我的作业运行结果是作业运行结果是 node_fail,该怎么处理?

A: node_fail 是提示由于计算节点故障导致作业运行失败。您重新提交作业即可。失败作业的机时系统会自动返还,您无须发邮件告诉我们。

3.2 Q:为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?

A: 登陆节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登陆节点设置了任务检测服务,查杀不正常占用登陆节点资源的任务,若被检测到您的账号不当使用登陆节点,您的账号将会被封禁 30-120分钟。请务必将这些任务提交到计算节点进行。

4.软件安装

4.1 Q:如何在超算上安装开源软件?

A: 请查看应用软件 获取已有软件信息。如未找到所需的软件信息,请发送邮件至 hpc邮箱获取帮助。

4.2 Q:超算上是否提供商业软件?

A: 目前暂不提供商业软件,不过您可以自行购买后安装。以下是注意事项:
    商业软件 License 通常需要使用专用的License服务器, 在购买商业软件并尝试在 π 集群上部署License服务器前,请与我们以及软件厂商进行充分沟通,请注意:
    1) 不要把 License 绑定到Pi集群的登录节点;
    2) 请购买浮动授权,即计算程序可以在集群上的任意一个节点启动,通常需要安装特定的 License 服务器;
    3) 询问 License 服务器是否可以部署在虚拟机上,这样我们可以专门开一台虚拟机运行您的 License 服务器;
    4) 与厂商充分沟通 License 服务器安装模式、授权数量、使用限制、更换MAC地址的费用以及厂商具备基本的技术支持能力。如果需要了解 π 集群的软硬件信息,可以在交流过程中抄送 hpc邮箱

4.3 Q: 普通用户如何使用 sudo 安装软件?

A: 有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用 sudo 特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 sudo。通常普通用户无需 sudo 就能在家目录中安装和使用软件,且使用 sudo 安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。请参考 预置软件环境 了解当前集群提供的软件模块或通过 hpc邮箱告诉我们需要安装的软件。对于需要 sudo 安装的商业软件,请参考 FAQ 4.2 由软件厂商工程师工程师联系我们指定安装方案。

4.4 Q:超算上是否提供 matlab?

A: 目前我们暂不提供商业软件,且学校提供的单机版 matlab 并不适用于 π 集群。对于您使用集群版 matlab 的需求,我们建议您联系校云计算平台许老师开通云主机账号,目前云计算平台提供了免费正版集群版 matlab 给全校师生使用。

5.机时和收费

5.1 Q:如何收费?

A: 请发送邮件至 hpc 邮箱咨询。

5.2 Q:如何查看账户余额?

A: 您可以使用主账号登陆 https://account.hpc.sjtu.edu.cn 查看。

5.3 Q:财务办理充值,仍未到账

A: 关于充值未到账,可咨询网络信息中心许老师,电话:34206060-8101;邮箱:lmxu@sjtu.edu.cn

咨询时需要准备好 jaccount 账号以及财务凭证号(财务入账后,财务网站页面会显示财务凭证号)

5.4 Q:有没有机时奖励政策?

A: 目前暂无奖励政策。在此之前已有的奖励机时仍然生效。

5.5 Q:电子信息与电气工程学院优惠政策怎么申请?(仅适用于电院老师)

A: 申请电院优惠政策的老师,请参考 http://dzb.seiee.sjtu.edu.cn/dzb/info/15820.htm
    申请表下载地址:http://dzb.seiee.sjtu.edu.cn/dzb/info/15825.htm
因网上充值流程暂未上线,若着急充值,可以将审批表交给电院高怡祯老师送至网络信息中心,电话:34204693,34204865

6.邮件支持

6.1 Q: 向 hpc 邮箱 发送的邮件多久才能收到回复?

A: 根据邮件内容不同,下面是响应周期:
   1. 邮件确认:1 个工作日内;
   2. 编译 Spack 已有的软件包:2个工作日内;
   3. 调整作业脚本:1个工作日内;
   4. 排查异常中断作业:2~3个工作日内;
   5. 新建帐号:2个工作日内;
   6. 编译不包含在 Spack 或自行开发的软件包:1~2周内。

7.致谢模版

Q: 如何在论文中致谢交大高性能计算?

A: 致谢模版如下。欢迎大家将已接收的高质量成果邮件分享给我们。

   (中文)本论文的计算结果得到了上海交通大学高性能计算中心的支持和帮助。

   (英文)The computations in this paper were run on the π 2.0 cluster supported by the Center for High Performance Computing at Shanghai Jiao Tong University.

8 Q: 医学院和附属医院如何申请 Jaccount 账号

A: 请至 上海交通大学医学院网络信息中心 页面了解和办理。

9 网络连接和数据传输

9.1 Q: 我觉得 π2 和我的电脑/服务器上数据传输速度很慢,怎么办?

A: π2 集群的登陆节点通过公网 IP 传输数据,理论速度上限约为 110 MB/s,但是考虑到登陆节点为大家共享使用,因此实际传输速度会偏低。对于数据传输,我们为您提供如下解决方案:

少量数据传输,可以直接使用 putty, filezilla 等客户端,或在本地使用 scp, rsync 命令向 π2 发起传输请求(因安全策略升级,在 π2 的终端上不支持 scp/rsync 的远程传输功能,所以需要从用户本地终端使用 scp/rsync 命令);

大量数据传输(如10TB-1PB) 强烈建议您联系我们,将硬盘等存储设备送至网络信息中心进行传输。

数据量特别庞大(如超过 1PB) 请您与我们联系,由计算专员根据具体情况为您解决数据传输问题。

9.2. Q: 想测网速

A: 校内的网络测速 http://comic.sjtu.edu.cn/speed/

校园主干网速度:交大网络中心首页 右侧页面上,点击“运行状态 -> 校园主干网” 查看