常见问题

0. π 2.0 集群名有什么含义?

1. 账号申请和登录

2. 作业提交和运行

3. 作业出错

4. 软件安装

5. 收费和充值

6. 邮件支持

7. 集群通知

8. 致谢模版

9. 医学院和附属医院申请 jAccount 账号

10. 如何重置 .bashrc 和 .bash_profile

0. π 2.0 集群名有什么含义?

  1. π 在希腊文里具有并行的涵义;

  2. π 是无限不循环的无理数,是人类理解无限的开始;

  3. π 的精确计算是人类使用计算机解决科学问题的代表;

  4. π 可看作交通大学首字母J和T的组合。

1. 账号申请和登录

1.1 Q:如何开通账号?

A: 在“交我办”(或 我的数字交大 my.sjtu.edu.cn )中的“交我算”里申请。我们将会在两个工作日内开通账号。

1.2 Q:是不是只有教职工才能申请账号?学生要使用交我算HPC+AI平台该怎么办?

A: 是的。只有教职工(含博士后)才能申请主账号。主账号下面可以免费开通子账号。

主账号和子账号都为独立账号,仅在计费关系上存在关联。若课题组有数据或软件共享需求,可发邮件给我们,我们将建立 acct-XXX/share 文件夹,主账号和子账号均可在此文件夹下读写。

1.3 Q:子账号的申请和费用?

A: 子账号也是在“交我办”(或 我的数字交大 my.sjtu.edu.cn )中的“交我算”里申请。我们将会在两个工作日内开通账号。

可自定义子账号名,格式为xxx-yyy,其中xxx为主账号,yyy可以自定义,比如user1、user2。我们将在两个工作日内为您开通。每个主账号能免费申请子账号的个数不限,请按需申请。

1.4 Q:我为什么连不上集群?

A: 集群(除ARM平台)支持公网直接访问,无需校园 VPN。若遇到连接问题,请先检查网络,或在其它设备或客户端上尝试。

  1. 请首先保证网络畅通;

  2. 查看交我算用户微信群,是否有集群下线停机通知。集群通知会及时发布在用户微信群里。若需加入用户微信群,请发邮件至 hpc邮箱

  3. 集群登录节点设置了 fail2ban 服务,多次输入密码错误后会被临时封禁 1 小时。如果您需要重置密码,请使用或抄送账号负责人邮箱发送邮件到 hpc邮箱,邮件中注明账号,我们将会在 1 个工作日内响应您的申请;

  4. 如果您在登录节点运行计算密集的作业,将会被程序自动查杀,您的账号会被加入到黑名单,并在30-120 分钟内无法登录。

1.5 Q:为什么连上了集群,过一会儿又断了?

A: 请参考 SSH 下的 登录常掉线的问题章节进行设置。

2. 作业提交和运行

2.1 Q:单个作业最长运行时间是多长?

A: 64c512g, a100, cpu, small, dgx2 和 arm128c256g 队列上的作业运行时间最长 7 天。 huge 和 192c6t运行时间最长 2 天。 具体时间限制可以通过 scontrol show partition 命令查看 MaxTime 参量。

2.2 Q:我的作业运行将超过最长时间限制,有没有办法延长运行时限?

A: 有。请将用户名、作业号、预计运行时间等信息发送到hpc邮箱,我们将会为您延长。需要注意的是:延长的作业,除因集群原因,不作诊断或机时返还。并请尽量提前两天发送申请。

2.3 Q:我的作业需要大内存怎么办?

A: 目前集群有 huge 和 192c6t 节点可以提供较大的内存。huge节点每节点提供3T内存,有2台。192ct6 节点有 6T 内存。具体使用请参考作业示例

3. 作业出错

3.1 Q:为什么我的作业运行结果是作业运行结果是node_fail,该怎么处理?

A: node_fail是提示由于计算节点故障导致作业运行失败。您重新提交作业即可。失败作业的机时系统会自动返还,无须发邮件告诉我们。

3.2 Q:为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?

A: 登录节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登录节点设置了任务检测服务,查杀不正常占用登录节点资源的任务,若被检测到您的账号不当使用登录节点,您的账号将会被封禁30-120分钟。请务必将这些任务提交到计算节点进行。

3.3 Q:运行程序时提示缺少 xxx.so 文件或者编译/运行程序时显示任务被kill

A: 请确认报错时执行的操作是否是在登录节点,如果是在登录节点出现上述报错,请申请计算节点后再做尝试。

3.4 Q:计算节点不能访问互联网/不能下载数据

A: 计算节点是通过proxy节点代理进行网络访问的,因此一些软件需要特定的代理设置。需要找到软件的配置文件,修改软件的代理设置。

  1. git、wget、curl等软件支持通用变量,代理参数设置为:

# 思源一号计算节点通用代理设置
https_proxy=http://proxy2.pi.sjtu.edu.cn:3128
http_proxy=http://proxy2.pi.sjtu.edu.cn:3128
no_proxy=puppet,proxy,172.16.0.133,pi.sjtu.edu.cn

 # π2.0计算节点通用代理设置
http_proxy=http://proxy.pi.sjtu.edu.cn:3004/
https_proxy=http://proxy.pi.sjtu.edu.cn:3004/
no_proxy=puppet
  1. Python、MATLAB、Rstudio、fasterq-dump等软件需要查询软件官网确定配置参数:

### fasterq-dump文件,配置文件路径 ~/.ncbi/user-settings.mkfg

# 思源一号节点代理设置
/tools/prefetch/download_to_cache = "true"
/http/proxy/enabled = "true"
/http/proxy/path = "http:/proxy2.pi.sjtu.edu.cn:3128"

# π2.0节点代理设置
/tools/prefetch/download_to_cache = "true"
/http/proxy/enabled = "true"
/http/proxy/path = "http://proxy.pi.sjtu.edu.cn:3004"

### Python需要在代码里面指定代理设置,不同Python包代理参数可能不同

# 思源一号节点代理设置
proxies = {
    'http': 'http://proxy2.pi.sjtu.edu.cn:3128',
    'https': 'http://proxy2.pi.sjtu.edu.cn:3128',
}
# π2.0节点代理设置
proxies = {
    'http': 'http://proxy.pi.sjtu.edu.cn:3004',
    'https': 'http://proxy.pi.sjtu.edu.cn:3004',
}

### MATLAB

# 思源一号节点代理设置
proxy2.pi.sjtu.edu.cn:3128

# π2.0节点代理设置
proxy.hpc.sjtu.edu.cn:3004

4. 软件安装

4.1 Q:如何在集群上安装软件?

A: 集群上软件安装,请依次判断适用哪种情况:

  1. 若为商业软件,请自行获取软件使用权并安装;

  2. 若为常用开源软件,请先根据应用软件 文档,确定集群是否已有安装;

  • 1 若未安装,请先考虑是否能用conda 方法 安装;

  • 2 再考虑在自己家目录下使用源码安装,遇到问题,请将可复现的步骤,发至hpc 邮箱获取帮助;

  • 3 软件还有容器安装 的方法;

  • 4 我们也将对常用开源软件进行评估,以便全局部署。欢迎邮件联系我们

4.2 Q:集群上是否提供商业软件?

A: 目前暂不提供商业软件,不过您可以自行购买后安装。商业软件通常需要连接至专用的 License 服务器进行验证。如果您需要购买商业软件并在集群上部署 License 服务器前, 请按照超算集群上使用商业软件的流程图,和软件厂商充分沟通并告知我们选择何种 License 部署方案:

../_images/commercial_software.png

以下是流程图的说明,以及部署 License 服务器的注意事项:

  1. 商业软件选型和部署需要软件厂商参与,需要充分沟通 License 服务器安装模式、授权数量、使用限制、更换 MAC 地址的费用、厂商的技术支持能力等事项。 建议在和软件厂商交流过程中抄送 hpc 邮箱

  2. License 类型:

    请购买浮动授权,即计算程序可以在集群上的任意一个节点启动。不要把 License 绑定到集群的登录节点。

  3. License 服务器部署方式:

    部署方式的具体选择,请咨询软件厂商 License 程序是否必须部署在物理机上,以及 License 的网络验证是否对网络有限制等事项,按照软件厂商建议进行部署方式选择。 目前超算集群上有三种使用商业软件 License 服务器的方式。

  • 第一种是使用交大云平台虚拟机部署,这种方式适用于大部分商业软件,建议用这种方式部署。

  • 第二种是用户自行搭建 License 服务器,计算平台提供必要的网络支持,这种方式适用于 License 验证程序必须运行在物理机的情况。

  • 第三种是使用超算集群物理机部署。如果前两种方案无法使用,请将软件厂商的相关说明等信息到 hpc 邮箱,我们尝试用超算物理机的方式部署。

  1. License 服务器具体搭建方法:

  • 如果选择交大云平台虚拟机部署方式,需要在云平台申请资源,按照软件厂商指引完成 License 服务器搭建。请在完成部署服务器之后,向 hpc 邮箱提供 License 服务器的固定 IP 地址,以及验证 License 的端口。

  • 如果选择自行搭建 License 服务器,通过网络提供 License 验证,此时 License 服务器的搭建和后续维护请咨询厂商。请在自行部署完 License 服务器之后,向 hpc 邮箱提供 License 服务器的固定 IP 地址,以及验证 License 的端口。

  • 如果选择租用超算集群节点,在物理机上部署 License 服务器,由于这个节点不会再提供给其他用户使用,计算平台会在按照整个节点的核时数收取 License 服务器费用。

4.3 Q: 普通用户如何使用 sudo 安装软件?

A: 有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用 sudo 特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 sudo。通常普通用户无需 sudo 就能在家目录中安装和使用软件,且使用sudo安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。

请参考 应用软件了解当前集群提供的软件模块或通过hpc 邮箱告诉我们需要安装的软件。

普通用户也可以使用容器的方式安装,容器内用户拥有“模拟root权限”,具体请见 容器

对于需要sudo 安装的商业软件,请参考 FAQ 4.2 由软件厂商工程师工程师联系我们指定安装方案。

5. 收费和充值

5.1 Q:如何收费?

A: 请发送邮件至 hpc 邮箱咨询。

5.2 Q: 如何缴费?

A: 校内转账可在“我的数字交大”网页,或“交我算”APP里完成,具体操作请见:

计算服务费 校内经费转账说明

如有任何财务问题,请联系网络信息中心基础部杨老师,电话 34206060-8017,邮箱 yjqedith@sjtu.edu.cn

5.3 Q:如何查看账户余额?

A: 您可以使用主账号或子账号登录 计费系统 查看。也可以使用账号负责人 jAccount 登录 计算账单页面

5.4 Q:财务办理充值,仍未到账

A: 关于充值未到账,可咨询网络信息中心基础部杨老师,电话 34206060-8017,邮箱 yjqedith@sjtu.edu.cn

咨询时请提供:

  • 拟充入的 jAccount

  • 充值金额

  • 财务凭证号(财务入账后,财务网站页面会显示财务凭证号)

5.5 Q:有没有机时奖励政策?

A: 目前暂无奖励政策。

6. 邮件支持

6.1 Q 向 hpc 邮箱 发送的邮件多久才能收到回复?

A: 根据邮件内容不同,下面是用户支持响应周期:

  1. 邮件确认:1 个工作日内;

  2. 调整作业脚本:1个工作日内;

  3. 排查异常中断作业:2~3个工作日内;

  4. 新建账号:2个工作日内;

  5. 编译不包含在 Spack 或自行开发的软件包:1~2周内。

7. 集群通知

Q 如何及时获取集群通知?

A: 集群通知会实时发布在用户微信群。请发邮件 hpc 邮箱 给我们,将为您添加进用户微信群。

8. 致谢模版

Q 如何在论文中致谢交大高性能计算?

A: 致谢模版如下。欢迎大家将已接收的高质量成果邮件分享给我们。

   (中文)本论文的计算结果得到了上海交通大学高性能计算中心的支持和帮助;

   (英文)The computations in this paper were run on the π 2.0 (or the Siyuan-1) cluster supported by the Center for High Performance Computing at Shanghai Jiao Tong University.

9. 医学院和附属医院申请 jAccount 账号

A: 请至 附属医院账号申请及充值流程 页面了解和办理。

10. 如何重置 .bashrc 和 .bash_profile

A: 用户家目录下的 ~/.bashrc~/.bash_profile 记录bash shell配置,若配置不当可能会导致无法找到可执行文件、无法在Studio中启动RSession等问题,需要重置这两个配置文件的内容。

重置 ~/.bashrc 操作流程如下,首先登录集群,然后备份现有配置文件,再调用 vim 或其他文本编辑器打开文件:

$ /bin/cp ~/.bashrc ~/.bashrc.bak
$ /bin/vim ~/.bashrc

~/.bashrc 文件内容重置如下,保存后退出编辑器:

# .bashrc

# Source global definitions
if [ -f /etc/bashrc ]; then
        . /etc/bashrc
fi

类似地,在命令行中使用 /bin/cp ~/.bash_profile ~/.bash_profile.bak; /bin/vim ~/.bash_profile 将文件内容重置如下:

# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs

PATH=$PATH:$HOME/.local/bin:$HOME/bin

export PATH

最后重新登录集群,确认重置配置文件后,先前的问题是否解决。 重置配置文件会导致您先前对bash shell的自定义配置失效,如果您仍需要保留这些自定义配置,建议您从bak备份文件中逐条转移这些配置,避免引入导致应用异常语句。


最后更新: 2024 年 11 月 22 日