跳转至

作物遗传改良全国重点实验室生物信息计算平台

平台介绍

生物信息高性能计算平台为华中农业大学作物遗传改良全国重点实验室公共技术平台,专注为实验室及全校用户提供高通量测序数据的存储和计算服务。

平台由155个刀片计算节点、2个GPU节点、6个八路大内存胖节点、多套并行存储组成,总体计算能力理论峰值为380万亿次,CPU核心数为5600核,存储硬件12.7PB(可用容量8.8PB),主存储读写带宽超过45GB/s。平台预装了1000余款各类生物信息分析软件及相关使用文档、各类常用生物信息数据库,用户可使用本平台进行转录调控测序、单细胞测序、三维基因组测序、表观组测序、基因组组装注释等各类常见组学数据分析。可加速大规模重测序数据分析、复杂大基因组组装注释等需消耗大量资源的分析项目。

Info

此文档右上角搜索框,支持完整的英文搜索,中文搜索分词有限制:搜索连续的两个字相比多个字效果更好,多个字之间建议以空格两两隔开进行搜索,如变异 检测

集群使用指南

1、在满足本实验室正常使用的情况下,面向全校师生开放使用,每学年4次集中考核、申请,见 账号申请 考核范围;收费标准见 集群收费标准

2、修改密码见 修改密码。密码遗忘先使用默认密码登录,如若不行则向管理员申请修改密码。

3、禁止在登录节点运行作业,登录节点运行的程序使用CPU或内存超标会被监控程序杀掉。所有作业应由LSF作业调度系统调度至计算节点运行,LSF使用文档见 作业调度系统LSF使用

4、集群有多种不同硬件配置,根据硬件配置差异和不同功能需求,集群计算节点划分为多个队列,每个队列的具体使用规则见 作业队列划分

  • 默认用户队列为 normal;
  • 程序调试使用 interactive 队列(交互模式);
  • gpu 程序使用 gpu 队列;
  • 超大内存作业使用 smp 队列;
  • 多节点并行作业使用 parrallel 队列等。

5、lsf 作业资源申请规则及注意事项:

  • lsf作业申请资源时需遵守资源申请的基本规则,即申请的CPU核心数和程序使用的线程数相等,避免集群资源的浪费或者节点负载过高,如果违反规则导致资源大规模浪费,账号将会被暂停提交作业一段时间或降低可使用的核心数;
  • 作业使用内存较多时,需在lsf作业脚本中申请使用的内存大小, 如 -R "rusage[mem=20GB]";
  • 提交到 normal、high 队列的作业每核可使用内存分别不超过5G、10G,否则作业被将被系统杀掉(TERM_ MEMLIMIT: job killed after reaching LSF memory usage limit.),具体说明见 作业队列划分。同时建议定制 bjobs 命令输出内容,方便查看作业内存使用,具体见 LSF 作业查询
  • 申请多个核心并不能加速单线程作业的运行,即perl、R、python等脚本作业使用一个核心即可;
  • 建议使用LSF的环境变量 $LSB_DJOB_NUMPROC 来设置程序使用的线程数,方便动态调整;
  • 有画图等图形界面任务需求,使用 bsub -q interactive -XF -Is bash 命令交互进入计算节点进行(xshell需要设置好图形转发),R 画图也可使用 Rstudio,见 集群 Rstudio 使用
  • 更多的使用细节见 作业调度系统LSF使用

6、每个用户可使用的计算和存储资源有一定限制,见 用户资源限制。数据较多、作业任务较多的用户建议时常使用diskquota命令查看自己的存储使用量,以免因为存储空间达到配额限制导致程序挂掉。存储超配额后,无法写入数据,同时也无法登录集群,均会出现 Disk quota exceeded 的报错。

7、集群存储只存储用户目前使用的数据,结果数据应该及时下载到本地,计算中间数据及时删除。测序原始数据一定要在本地备一份。长时间不使用的数据及时压缩后备份到本地,避免额外的存储使用费用。

8、集群装有若干公共应用软件、基础库以及NR、NT等生信数据库,用户可使用module、singularity来查看和调用,见 集群软件使用介绍。有些生信软件在集群使用使用会有一些注意事项,可在本系统上查看相关文档。

9、如果群体数据较多,测试 GATK HaplotypeCaller 运行较慢,可以使用 deepvariant。或使用GPU进行加速的call变异工具 parabricks,人重 30x WGS测试数据,fq->vcf全流程3h,call变异bam->vcf大约20min。

10、大批量的群体数据处理时,不要直接保留sam文件,见 短序列比对输出bam, 数据使用规范 。群体数据处理过程中会使用大量的存储空间,建议群体数据处理过程中时常使用diskquota命令查看自己的存储使用量,以免存储使用达到配额限制导致程序挂掉或空跑,见 存储限制

11、简单分析流程可以使用LSF处理,见 LSF提交批量流程作业。复杂分析流程,建议使用生信专用流程工具 snakemakenextflow,前者依赖python3,上手相对简单,容易理解,复杂脚本编写符合python语法;后者依赖java环境,理解和上手较复杂,复杂场景编写脚本需要使用java语法。

本文阅读量  次
本站总访问量  次