busco
Info
由于集群计算节点没有联网,因此需要使用离线模式运行,在登录节点下载需要的数据库,然后提交busco作业到计算节点。
介绍¶
Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。 通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。
可以评估三种数据类型:
- 组装的基因组;
- 转录组;
- 注释到的基因对应的氨基酸序列。
使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。
BUSCO官网:https://busco.ezlab.org
BUSCO v5数据库:https://busco-data.ezlab.org/v5/data/lineages/
参考:
https://mp.weixin.qq.com/s/_UXP9qHZnFNqjS56KGzylA
https://mdnice.com/writing/2ab9d001c1ab4bfebaab60d743a09390
https://www.jianshu.com/p/ffda8e3a58e8
下载安装¶
busco安装需要不少依赖,可以直接使用singularity镜像。
基本使用¶
以水稻基因组(真核生物)为例,此过程会自动下载相关的数据库,如本例中的 embryophyta_odb10
库,下载的数据默认在当前目录下的busco_downloads
目录内。
$ singularity exec -e $IMAGE/busco/5.5.0_cv1.sif busco -i MH63.fa -l embryophyta_odb10 -o out -m genome -c 30
-i 为输入文件,一般为核酸或蛋白序列
-o 输出目录
-m 分析默认,genome 或 transcriptome 或 proteins
-l 数据库
-c 程序运行线程数
植物相关的数据库有:
类群 | 数据库 | BUSCO groups数量 |
---|---|---|
真核生物 | eukaryota_odb10 | 255 |
绿色植物 | viridiplantae_odb10 | 425 |
有胚植物 | embryophyta_odb10 | 1614 |
真双子叶植物 | eudicots_odb10 | 2326 |
豆目 | fabales_odb10.2020-08-05.tar.gz | 5366 |
离线使用¶
下载数据库¶
新版的busco有个 --download
选项,可下载指定的数据库到本地,如 embryophyta_odb10
,也可批量下载 all
, prokaryota
, eukaryota
, virus
。下载的数据默认在当前目录下的 busco_downloads
目录内。
$ module load Singularity/3.7.3
$ singularity exec $IMAGE/busco/5.5.0_cv1.sif busco --download embryophyta_odb10
$ tree -L 3 busco_downloads/
busco_downloads/
├── file_versions.tsv
└── lineages
└── embryophyta_odb10
├── ancestral
├── ancestral_variants
├── dataset.cfg
├── hmms
├── info
├── lengths_cutoff
├── links_to_ODB10.txt
├── prfl
├── refseq_db.faa.gz
└── scores_cutoff
busco --list-datasets
可以查看所有数据库。 运行¶
$ singularity exec -e $IMAGE/busco/5.5.0_cv1.sif busco -i MH63.fa -l ./busco_downloads/lineages/embryophyta_odb10 -o out -m genome -c 30 --offline
2023-10-17 10:13:22 INFO:
---------------------------------------------------
|Results from dataset embryophyta_odb10 |
---------------------------------------------------
|C:92.8%[S:90.8%,D:2.0%],F:1.4%,M:5.8%,n:1614 |
|1499 Complete BUSCOs (C) |
|1466 Complete and single-copy BUSCOs (S) |
|33 Complete and duplicated BUSCOs (D) |
|22 Fragmented BUSCOs (F) |
|93 Missing BUSCOs (M) |
|1614 Total BUSCO groups searched |
---------------------------------------------------
2023-10-17 10:13:22 INFO: BUSCO analysis done. Total running time: 1724 seconds
结果解释¶
结果文件在 out/short_summary.specific.embryophyta_odb10.out.txt
中。
$ cat out/short_summary.specific.embryophyta_odb10.out.txt
# BUSCO version is: 5.5.0
# The lineage dataset is: embryophyta_odb10 (Creation date: 2020-09-10, number of genomes: 50, number of BUSCOs: 1614)
# Summarized benchmarking in BUSCO notation for file MH63.fa
# BUSCO was run in mode: euk_genome_met
# Gene predictor used: metaeuk
***** Results: *****
C:92.8%[S:90.8%,D:2.0%],F:1.4%,M:5.8%,n:1614
1499 Complete BUSCOs (C)
1466 Complete and single-copy BUSCOs (S)
33 Complete and duplicated BUSCOs (D)
22 Fragmented BUSCOs (F)
93 Missing BUSCOs (M)
1614 Total BUSCO groups searched
Assembly Statistics:
14 Number of scaffolds
181 Number of contigs
359939322 Total length
0.005% Percent gaps
29 MB Scaffold N50
3 MB Contigs N50
Dependencies and versions:
hmmsearch: 3.1
bbtools: 39.01
metaeuk: 6.a5d39d9
busco: 5.5.0
通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是92.9%=1499/1614。
选项¶
$ busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS]
-i SEQUENCE_FILE, --in SEQUENCE_FILE, 输入FASTA格式的序列文件。可以是组装的基因组或转录组(DNA),也可以是注释基因集的蛋白质序列。还可以使用包含多个输入文件的目录路径
-o OUTPUT, --out OUTPUT, 为您的分析运行提供一个可识别的简短名称。输出文件夹和文件将以此名称标记。输出文件夹的路径由--out_path设置
-m MODE, --mode MODE, 指定要运行的BUSCO分析模式,有三个有效的模式:
- geno或genome,用于基因组组装(DNA)
- tran或transcriptome,用于转录组组装(DNA)
- prot或proteins,用于注释的基因集(蛋白质)
-l LINEAGE, --lineage_dataset LINEAGE, 指定要使用的BUSCO谱系名称
--augustus, 对真核生物运行使用Augustus基因预测器
--augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2
向Augustus传递额外的参数。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔
--augustus_species AUGUSTUS_SPECIES, 指定Augustus训练的物种
--auto-lineage, 运行自动谱系以找到最佳的谱系路径
--auto-lineage-euk, 仅在真核生物树上运行自动定位,以找到最佳的谱系路径
--auto-lineage-prok, 仅在非真核生物树上运行自动定位,以找到最佳的谱系路径
-c N, --cpu N, 指定要使用的线程/核心数(N为整数)
--config CONFIG_FILE, 提供一个配置文件
--contig_break n, 表示在连续的N之间有多少个断点来分隔contig, 默认值为n=10
--datasets_version DATASETS_VERSION, 指定BUSCO数据集的版本,例如odb10
--download [dataset [dataset ...]]
下载数据集。可能的值是特定的数据集名称,"all","prokaryota","eukaryota"或"virus"。如果与其他命令行参数一起使用,请确保将其放在最后
--download_base_url DOWNLOAD_BASE_URL, 设置远程BUSCO数据集位置的URL
--download_path DOWNLOAD_PATH , 指定用于存储BUSCO数据集下载的本地文件路径。
-e N, --evalue N, BLAST搜索的E-value阈值。允许的格式为0.001或1e-03(默认值:1e-03)
-f, --force, 强制覆盖现有文件。必须在已存在具有提供的名称的输出文件时使用
-h, --help, 显示帮助信息并退出
--limit N, 每个BUSCO要考虑的候选区域(contig或transcript)的数量(默认值:3)
--list-datasets, 打印可用的BUSCO数据集列表。
--long, 优化Augustus自训练模式(默认值:关闭);这将显著增加运行时间,但对于某些非模式生物可以改善结果。
--metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
向Metaeuk传递额外的参数,用于第一次运行。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔。
--metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
向Metaeuk传递额外的参数,用于第二次运行。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔。
--miniprot, 对真核生物运行使用Miniprot基因预测器。
--offline, 表示BUSCO无法尝试下载文件。
--out_path OUTPUT_PATH, 结果文件夹的可选位置,不包括结果文件夹名称。默认为当前工作目录。
-q, --quiet, 禁用信息日志,仅显示错误。
-r, --restart, 继续已经部分完成的运行。
--scaffold_composition, 将每个scaffold的ACGTN内容写入文件scaffold_composition.txt。
--tar, 压缩某些包含大量文件的子目录以节省空间。
--update-data, 下载并替换所有谱系数据集和必要文件的最新版本。
本站总访问量 次