超算服务

当前位置: 首页 >> 服务指南 >> 超算服务 >> 正文

HPC系统使用指南

发布时间:2024-12-27浏览次数:

基本使用

软件环境加载


高性能计算平台使用Environment Modules以模块的形式对环境变量进行管理。在集群系统中,安装有多种软件及其不同版本,它们需要设置不同的环境变量,Environment Module可以将这些环境变量做成模块文件(modulefile)。用户不仅可以在命令行中Environment Modules,也能在作业提交脚本中使用,对编译和计算环境都能够很好的控制。

常用命令如下:

1、显示module帮助:module help

2、显示所有可用模块:module avail

3、加载模块:module load A (加载模块A)

4、卸载模块:module unload A (卸载模块A)

5、显示已加载模块 :module list

6、切换模块:module switch A B (卸载模块A并加载模块B)


作业提交

bsub常见参数介绍


bsub详细使用方式可通过命令:man bsub自行查阅,以下列出bsub常用参数:

1、bsub -n min_task[,max_task]:作业所需核数。

例:bsub -n 10需要10核,bsub -n 18,20 需要18-20核均可。

2、bsub -q queue_name:作业提交到指定队列计算。

例:bsub -q normal 提交至normal队列进行计算;

3、bsub -J job_name:作业名称。

例:bsub -J test 本作业名称为test。

4、bsub -i input_file:标准输入文件。

5、bsub -o output_file:标准输出文件。

6、bsub -e error_file:标准错误输出文件。

例:bsub -e %J.err 标准错误输出文件命名为JOBID.err,%J表示该作业的ID。

7、bsub -R “res_req”[-R “res_req”...] 指定作业在需要满足某种条件的节点上运行。

例:bsub -R “span[hosts=1]” 指定作业需要在同一节点内运行,hosts的设置只接受1的参数;

bsub -n 16 -R “span[ptile=8]”指定该作业在每个节点运行8核,共需2个计算节点;

bsub -R “select[hname!='XXXX']”指定该作业不在XXXX节点上执行;

bsub -R “rusage[mem=100MB:swp=50MB]”指定该作业需求为100M内存,50M的swap空间。

8、bsub –W [hour:]minute :限定作业运行时长,若达到限定时长后作业仍未算完,该作业会被kill。

例:bsub –W 100 表示限定作业运行时长为100分钟。

9、bsub –w ‘dependency_expression’ :设置作业运行的依赖条件。

例:bsub –w ‘done(jobID1|“jobA”)’,作业ID为jobID1或者作业名jobA 状态为DONE之后才开始运行。


命令行方式提交

格式:bsub [options] command [arguments]

其中,[options]bsub的参数,command为计算程序,如果是MPI并行程序需要使用mpirun启动,[arguments]为计算程序的参数。

例:bsub -q normal -n 20 -o %J.out -e %J.err “module load impi/2019.1.144;module load mkl/2019.1.144;module load vasp/5.3.3 mpirun vasp”

提交一个vasp作业到normal队列,需要20核,标准输出文件为jobid.out,标准错误输出文件为jobid.err,调用impi并行计算程序(加载了impimkl)


作业脚本提交

格式:bsub < jobfile.lsf

jobfile 为作业的shell脚本文件,文件名任意且不需要运行权限,脚本内容格式如下:

#BSUB [options]

…………

command [arguments]

上述作业以脚本方式提交,脚本内容如下:

#BSUB -q normal

#BSUB -n 20

#BSUB -o %J.out

#BSUB -e %J.err

module load impi/2019.1.144

module load mkl/2019.1.144

module load vasp/5.3.3

mpirun vasp


查询集群信息相关命令

  查看当前用户存储资源使用情况

  $ mmlsquota 

  bjobs 显示作业运行状态

  $ bjobs -l JOBID 

  bqueues 显示队列信息

  $ bqueues 或 $ bqueues –l

  bhosts 显示各节点作业相关情况

  $ bhosts

  lsload 显示各节点负载信息

  $ lsload

  lshosts处理各节点静态资源信息

  $ lshosts


使用规定

  系统有独立的记录服务器自动通过网络将用户的登录及执行命令的情况加以记录和审计.计算服务器出于方便用户进行科研工作的目的,给予了各用户相对较高级别的应用执行权限.

  我们希望本系统的用户能爱惜计算资源,尊重其他用户的计算权利,严格遵守以下计算服务器的使用规定

  1.只在计算服务集群上运行与申请帐户时填写的科研项目有关的计算程序。

  2.只使用LSF平台提交计算任务,严禁在登录节点上运行作业。

  3.勿恶意抢占计算和存储资源。

  4.勿试图进入或干扰其它用户的计算任务。

  5.勿试图破解其他用户的密码。

  6.勿进行其它任何试图攻击和破坏本系统的行为。

  违反使用规定的用户可能被谢绝使用本系统,如对系统或其它用户的计算任务造成损失,应承担相应的赔偿责任。