跳转至

cellranger

cellranger count

cellranger count在数据量较多时运行时间较长,可以通过如下2种方式大幅降低运行时间。以拟南芥数据SRR8485805为例,可将运行时间从8h减少为2h。

运行加速

输出结果到计算节点本地磁盘

将cellranger count的结果输出到计算节点的/tmp目录,这种方式需要指定结果文件消耗的最大磁盘空间(-R "rusage[tmp=70G]"),以免出现/tmp目录写满导致作业挂掉。经验值为输入fq.gz文件的2倍,如输入fq.gz文件为35G,预计消耗的最大磁盘空间为70G。

#BSUB -J cellranger
#BSUB -n 20
#BSUB -R "rusage[tmp=70G]"
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal

module load cellranger/7.0.0

# 工作目录,cellranger count运行完成之后,将结果文件移动到该目录中。可根据实际情况调整
workdir=`pwd`

# 在/tmp中创建运行目录
tmpn=`mktemp -u cellranger_XXXXX`
tmpd="/tmp/${tmpn}"
mkdir ${tmpd}
echo ${tmpd}

# 切换运行目录到计算节点/tmp 上,$LSB_DJOB_NUMPROC 为核心数,根据BSUB -n 而变化。
cd ${tmpd}
cellranger count --id=SRR8485805_output --transcriptome=/public/home/software/test/scRNA/Arabidopsis_thaliana/ref --fastqs=/public/home/software/test/scRNA/Arabidopsis_thaliana/data/ --sample=SRR8485805 --force-cells=8000 --localcores $LSB_DJOB_NUMPROC

# 将结果文件目录移动到home目录中
mv SRR8485805_output/ ${workdir}

不输出bam文件

如果后续分析流程中,不需要bam文件,可以添加--no-bam选项,不生成bam文件,也可大幅加速运行速度。一般的标准分析只需要表达矩阵无需bam文件,RNA速率分析需要bam文件。

#BSUB -J cellranger
#BSUB -n 20
#BSUB -R "rusage[tmp=70G]"
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal

module load cellranger/7.0.0

# $LSB_DJOB_NUMPROC 为核心数,根据BSUB -n 而变化。
cellranger count --id=SRR8485805_output --transcriptome=ref --fastqs=data --sample=SRR8485805 --force-cells=8000 --localcores $LSB_DJOB_NUMPROC

运行速度比较

拟南芥数据 SRR8485805

运行时间(min)加速倍数
默认情况4801
输出到/tmp1104.3
不输出bam1453.3

https://lpantano.github.io/post/2019/2019-07-12-cellranger-efficiency-in-hpc-copy/

本文阅读量  次
本站总访问量  次