paragraph

paragraph在运行过程中,每个vcf位点会生成 vcf.gz、vcf.gz.csi、vcf.gz.json 三个文件,默认存放在节点的/tmp目录(所在盘为系统盘)下,程序运行完成之后不会删除,久而久之,会在/tmp目录下积累大量的文件,最终导致系统被塞满,节点挂掉。因此在集群上运行paragraph时建议如下处理:

  • 拆分vcf文件,vcf超过10万行建议拆分,以加快临时文件的生成和删除速度;
  • 在normal队列运行,normal队列的系统盘为ssd,对于大量小文件的读写速度远远高于机械盘;容量也相对较大,不容易写满;
  • 单个作业建议申请10核,使用10线程运行,以免单个节点运行太多paragraph作业,减轻系统盘IO压力;
  • 按如下要求编写作业脚本,以便在paragraph运行完成之后及时删除临时文件
#BSUB -J paragraph
#BSUB -n 10
#BSUB -R span[hosts=1]
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal

module load Paragrpah/2.4a

tmpn=`mktemp -u paragraph_XXXXX`
tmpd="/tmp/${tmpn}"
mkdir ${tmpd}
echo ${tmpd}
export TMP=${tmpd}
multigrmpy.py -i genome_pacbio_for_paragraph.vcf -m SRR5965451.txt -r TM-1.genome.fa --threads $LSB_DJOB_NUMPROC --scratch-dir ${tmpd} -M 100 -o out
#清理临时文件
rm -r ${tmpd}
本文阅读量  次
本站总访问量  次