变异检测软件比较
$ gatk HaplotypeCaller -ERC GVCF -stand-call-conf 30 --native-pair-hmm-threads 8 -R Osativa_323_v7.0.fa \
-I B2-32_L2_145A45.dedup.bam -O B2-32_L2_145A45.gatk.g.vcf.gz
$ singularity exec --nv $IMAGE/clara-parabricks/4.0.1-1.sif pbrun haplotypecaller --ref Osativa_323_v7.0.fa \
--in-bam B2-32_L2_145A45.dedup.bam --out-variants B2-32_L2_145A45.parbricks.g.vcf.gz --gvcf --tmp-dir pbruntmp --logfile \
pbrun_B2-32_L2_145A45.log
$ singularity exec $IMAGE/deepvariant/1.4.0.sif run_deepvariant --model_type=WGS \
--ref=Osativa_323_v7.0.fa --reads=B2-32_L2_145A45.dedup.bam --output_vcf=B2-32_L2_145A45.parbricks.vcf.gz \
--output_gvcf=B2-32_L2_145A45.parbricks.g.vcf.gz --num_shards=8
$ gatk GenotypeGVCFs -R Osativa_323_v7.0.fa -V B2-32_L2_145A45.gatk.g.vcf.gz -O B2-32_L2_145A45.gatk.vcf.gz
$ gatk GenotypeGVCFs -R Osativa_323_v7.0.fa -V B2-32_L2_145A45.deepvariant.g.vcf.gz -O B2-32_L2_145A45.deepvariant.vcf.gz
$ gatk GenotypeGVCFs -R Osativa_323_v7.0.fa -V B2-32_L2_145A45.parabricks.g.vcf.gz -O B2-32_L2_145A45.parabricks.vcf.gz
$ # gatk GenotypeConcordance --TRUTH_VCF B2-32_L2_145A45.gatk.vcf.gz --CALL_VCF B2-32_L2_145A45.parabricks.vcf.gz -O out2
# gatk vs parabricks
$ gatk Concordance --truth B2-32_L2_145A45.gatk.vcf.gz --evaluation B2-32_L2_145A45.parabricks.vcf.gz --summary out.txt
$ cat out.txt
type TP FP FN RECALL PRECISION
SNP 1039192 24 26 1.0 1.0
INDEL 181301 39 2 1.0 1.0
# gatk vs deepvariant
$ gatk Concordance --truth B2-32_L2_145A45.gatk.vcf.gz --evaluation B2-32_L2_145A45.deepvariant.vcf.gz --summary out3.txt
$ cat out3.txt
type TP FP FN RECALL PRECISION
SNP 772527 114105 266691 0.743 0.871
INDEL 123447 32171 57856 0.681 0.793
结果解释:
Concordance(一致性)是评估变异检测结果与参考标准之间的一致性的指标之一。
在GATK中,Concordance结果是通过比较变异检测结果与已知的参考标准来计算的。参考标准可以是已知的高质量变异数据库、验证实验或其他可靠的数据来源。Concordance结果的解释通常涉及以下几个指标:
True Positives(TP,真阳性):指在变异检测结果中正确鉴定为阳性的真实阳性位点数。这表示变异检测方法能够准确地找到存在的变异。
False Positives(FP,假阳性):指在变异检测结果中错误地鉴定为阳性的位点数。这表示变异检测方法可能会错误地将不存在的变异标记为存在。
False Negatives(FN,假阴性):指在变异检测结果中错误地鉴定为阴性的位点数。这表示变异检测方法可能会错过真实存在的变异。
RECALL(召回率):表示正确检测到的阳性位点数与真实存在的阳性位点总数之比。高召回率意味着变异检测方法能够有效地捕获存在的变异。
Precision(精确度):表示正确检测到的阳性位点数与所有被检测为阳性的位点总数之比。高精确度意味着变异检测方法能够准确地确定变异存在的概率。
Concordance结果的解释通常会提供这些指标的具体数值,并根据实际应用场景对结果进行评估和讨论。一般来说,较高的灵敏度和精确度是理想的结果,表示变异检测方法在找到真实存在的变异并准确鉴定它们方面表现良好。
https://gitee.com/openvinotoolkit-prc/deepvariant/blob/r1.0/docs/trio-merge-case-study.md#single-sample-quality-metrics
sudo docker pull pkrusche/hap.py
declare -a trio=(HG002 HG003 HG004)
for SAMPLE in "${trio[@]}"
do
sudo docker run -i \
-v "${DIR}":"/data" \
pkrusche/hap.py /opt/hap.py/bin/hap.py \
"/data/${SAMPLE}_truth.vcf.gz" \
"/data/${SAMPLE}.vcf.gz" \
-f "/data/${SAMPLE}_truth.bed" \
-T "/data/${CAPTURE_BED}" \
-r "/data/hs37d5.fa" \
-o "/data/${SAMPLE}.happy.output" \
--engine=vcfeval > ${DIR}/${SAMPLE}.stdout
done
https://github.com/Sentieon/hap-eval
https://blog.csdn.net/yoerplvr/article/details/130266728
本文阅读量 次本站总访问量 次