paragraph

paragraph在运行过程中，每个vcf位点会生成 vcf.gz、vcf.gz.csi、vcf.gz.json 三个文件，默认存放在节点的/tmp目录（所在盘为系统盘）下，程序运行完成之后不会删除，久而久之，会在/tmp目录下积累大量的文件，最终导致系统被塞满，节点挂掉。因此在集群上运行paragraph时建议如下处理：

拆分vcf文件，vcf超过10万行建议拆分，以加快临时文件的生成和删除速度；
在normal队列运行，normal队列的系统盘为ssd，对于大量小文件的读写速度远远高于机械盘；容量也相对较大，不容易写满；
单个作业建议申请10核，使用10线程运行，以免单个节点运行太多paragraph作业，减轻系统盘IO压力；
按如下要求编写作业脚本，以便在paragraph运行完成之后及时删除临时文件

#BSUB -J paragraph
#BSUB -n 10
#BSUB -R span[hosts=1]
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal

module load Paragrpah/2.4a

tmpn=`mktemp -u paragraph_XXXXX`
tmpd="/tmp/${tmpn}"
mkdir ${tmpd}
echo ${tmpd}
export TMP=${tmpd}
multigrmpy.py -i genome_pacbio_for_paragraph.vcf -m SRR5965451.txt -r TM-1.genome.fa --threads $LSB_DJOB_NUMPROC --scratch-dir ${tmpd} -M 100 -o out
#清理临时文件
rm -r ${tmpd}

本文阅读量次
本站总访问量次