JobTop 作业监控工具

JobTop是一个用于监控作业的命令行工具,提供了直观的界面来查看作业CPU平均负载和内存的使用情况。使用该工具可查看正在运行作业的资源使用情况,以及最近两个月内的历史作业资源使用情况。

主要功能

  • 显示作业的相关信息,如节点、开始时间、结束时间、状态、最大内存使用率、最大CPU负载

  • 保存作业的资源图,包括CPU和内存的使用情况

使用方法

在终端中直接运行:

module load jobtop
jobtop 作业ID
: jobtop 38233514

终端输出:

Job info:
Job ID: 38233514
Nodes: ['node206']
Start time: 2024-11-05 09:15:27
End time: 2024-11-21 10:03:48
State: RUNNING
Max Memory Usage: 49.98%
Max CPU Load: 376.38

Job resources Figure saved as: 38233514_cpu_mem.png

作业资源图

JobTop界面预览

注意:

  • 作业资源图保存为PNG格式,文件名格式为:作业ID_cpu_mem.png

  • 作业资源图保存路径为当前目录

CPU平均负载(1m)

具体指的是过去1分钟内系统中处于以下两种状态的平均任务数量,并计算其指数加权移动平均值得到的。

  • 正在运行的任务:正在CPU上执行的进程。

  • 等待CPU的任务:因CPU资源不足而排队的进程。

例如:

  • 在64核系统中,负载64表示CPU正满负荷工作。

  • 在40核系统中,负载10表示CPU的使用率仅为25%。

  • 负载值大于核心数:意味着任务队列中等待的任务数超过了CPU的处理能力,系统可能出现性能瓶颈。

  • 负载值小于核心数:CPU还有空闲时间,系统负载较轻。


最后更新: 2025 年 02 月 14 日