跳转至

busco

Info

由于集群计算节点没有联网,因此需要使用离线模式运行,在登录节点下载需要的数据库,然后提交busco作业到计算节点。

介绍

Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。 通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。

可以评估三种数据类型:

  • 组装的基因组;
  • 转录组;
  • 注释到的基因对应的氨基酸序列。

使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。

BUSCO官网:https://busco.ezlab.org

BUSCO v5数据库:https://busco-data.ezlab.org/v5/data/lineages/

参考:

https://mp.weixin.qq.com/s/_UXP9qHZnFNqjS56KGzylA

https://mdnice.com/writing/2ab9d001c1ab4bfebaab60d743a09390

https://www.jianshu.com/p/ffda8e3a58e8

下载安装

busco安装需要不少依赖,可以直接使用singularity镜像。

基本使用

以水稻基因组(真核生物)为例,此过程会自动下载相关的数据库,如本例中的 embryophyta_odb10 库,下载的数据默认在当前目录下的busco_downloads 目录内。

$ singularity exec -e  $IMAGE/busco/5.5.0_cv1.sif busco -i MH63.fa -l embryophyta_odb10 -o out -m genome -c 30 
  • -i 为输入文件,一般为核酸或蛋白序列

  • -o 输出目录

  • -m 分析默认,genome 或 transcriptome 或 proteins

  • -l 数据库

  • -c 程序运行线程数

植物相关的数据库有:

类群数据库BUSCO groups数量
真核生物eukaryota_odb10255
绿色植物viridiplantae_odb10425
有胚植物embryophyta_odb101614
真双子叶植物eudicots_odb102326
豆目fabales_odb10.2020-08-05.tar.gz5366

离线使用

下载数据库

新版的busco有个 --download 选项,可下载指定的数据库到本地,如 embryophyta_odb10,也可批量下载 all, prokaryota, eukaryota, virus。下载的数据默认在当前目录下的 busco_downloads 目录内。

$ module load Singularity/3.7.3
$ singularity exec $IMAGE/busco/5.5.0_cv1.sif busco --download embryophyta_odb10

$ tree -L 3 busco_downloads/
busco_downloads/
├── file_versions.tsv
└── lineages
    └── embryophyta_odb10
        ├── ancestral
        ├── ancestral_variants
        ├── dataset.cfg
        ├── hmms
        ├── info
        ├── lengths_cutoff
        ├── links_to_ODB10.txt
        ├── prfl
        ├── refseq_db.faa.gz
        └── scores_cutoff
busco --list-datasets 可以查看所有数据库。

运行

$ singularity exec -e  $IMAGE/busco/5.5.0_cv1.sif busco -i MH63.fa -l ./busco_downloads/lineages/embryophyta_odb10 -o out -m genome -c 30 --offline 

2023-10-17 10:13:22 INFO:   

    ---------------------------------------------------
    |Results from dataset embryophyta_odb10            |
    ---------------------------------------------------
    |C:92.8%[S:90.8%,D:2.0%],F:1.4%,M:5.8%,n:1614      |
    |1499   Complete BUSCOs (C)                        |
    |1466   Complete and single-copy BUSCOs (S)        |
    |33     Complete and duplicated BUSCOs (D)         |
    |22     Fragmented BUSCOs (F)                      |
    |93     Missing BUSCOs (M)                         |
    |1614   Total BUSCO groups searched                |
    ---------------------------------------------------
2023-10-17 10:13:22 INFO:   BUSCO analysis done. Total running time: 1724 seconds

结果解释

结果文件在 out/short_summary.specific.embryophyta_odb10.out.txt 中。

$ cat out/short_summary.specific.embryophyta_odb10.out.txt 
# BUSCO version is: 5.5.0 
# The lineage dataset is: embryophyta_odb10 (Creation date: 2020-09-10, number of genomes: 50, number of BUSCOs: 1614)
# Summarized benchmarking in BUSCO notation for file MH63.fa
# BUSCO was run in mode: euk_genome_met
# Gene predictor used: metaeuk

    ***** Results: *****

    C:92.8%[S:90.8%,D:2.0%],F:1.4%,M:5.8%,n:1614       
    1499    Complete BUSCOs (C)            
    1466    Complete and single-copy BUSCOs (S)    
    33  Complete and duplicated BUSCOs (D)     
    22  Fragmented BUSCOs (F)              
    93  Missing BUSCOs (M)             
    1614    Total BUSCO groups searched        

Assembly Statistics:
    14  Number of scaffolds
    181 Number of contigs
    359939322   Total length
    0.005%  Percent gaps
    29 MB   Scaffold N50
    3 MB    Contigs N50


Dependencies and versions:
    hmmsearch: 3.1
    bbtools: 39.01
    metaeuk: 6.a5d39d9
    busco: 5.5.0
使用embryophyta_odb10有胚植物数据库中共有1614个BUSCO groups,其中1499(92.8%)个BUSCO groups被完整比对上(包括1466个单拷贝和33个多拷贝),22个部分比对上,93个没有比对上。

通常用完整比对上的占总共的BUSCO groups的比例作为BUSCO的重要结果,越高越好,这里是92.9%=1499/1614。

选项

$ busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [OTHER OPTIONS]
  • -i SEQUENCE_FILE, --in SEQUENCE_FILE, 输入FASTA格式的序列文件。可以是组装的基因组或转录组(DNA),也可以是注释基因集的蛋白质序列。还可以使用包含多个输入文件的目录路径

  • -o OUTPUT, --out OUTPUT, 为您的分析运行提供一个可识别的简短名称。输出文件夹和文件将以此名称标记。输出文件夹的路径由--out_path设置

  • -m MODE, --mode MODE, 指定要运行的BUSCO分析模式,有三个有效的模式:

    • geno或genome,用于基因组组装(DNA)
    • tran或transcriptome,用于转录组组装(DNA)
    • prot或proteins,用于注释的基因集(蛋白质)
  • -l LINEAGE, --lineage_dataset LINEAGE, 指定要使用的BUSCO谱系名称

  • --augustus, 对真核生物运行使用Augustus基因预测器

  • --augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2

    向Augustus传递额外的参数。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔

  • --augustus_species AUGUSTUS_SPECIES, 指定Augustus训练的物种

  • --auto-lineage, 运行自动谱系以找到最佳的谱系路径

  • --auto-lineage-euk, 仅在真核生物树上运行自动定位,以找到最佳的谱系路径

  • --auto-lineage-prok, 仅在非真核生物树上运行自动定位,以找到最佳的谱系路径

  • -c N, --cpu N, 指定要使用的线程/核心数(N为整数)

  • --config CONFIG_FILE, 提供一个配置文件

  • --contig_break n, 表示在连续的N之间有多少个断点来分隔contig, 默认值为n=10

  • --datasets_version DATASETS_VERSION, 指定BUSCO数据集的版本,例如odb10

  • --download [dataset [dataset ...]]

    下载数据集。可能的值是特定的数据集名称,"all","prokaryota","eukaryota"或"virus"。如果与其他命令行参数一起使用,请确保将其放在最后

  • --download_base_url DOWNLOAD_BASE_URL, 设置远程BUSCO数据集位置的URL

  • --download_path DOWNLOAD_PATH , 指定用于存储BUSCO数据集下载的本地文件路径。

  • -e N, --evalue N, BLAST搜索的E-value阈值。允许的格式为0.001或1e-03(默认值:1e-03)

  • -f, --force, 强制覆盖现有文件。必须在已存在具有提供的名称的输出文件时使用

  • -h, --help, 显示帮助信息并退出

  • --limit N, 每个BUSCO要考虑的候选区域(contig或transcript)的数量(默认值:3)

  • --list-datasets, 打印可用的BUSCO数据集列表。

  • --long, 优化Augustus自训练模式(默认值:关闭);这将显著增加运行时间,但对于某些非模式生物可以改善结果。

  • --metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"

    向Metaeuk传递额外的参数,用于第一次运行。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔。

  • --metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"

    向Metaeuk传递额外的参数,用于第二次运行。所有参数应该包含在一个没有空格的字符串中,每个参数之间用逗号分隔。

  • --miniprot, 对真核生物运行使用Miniprot基因预测器。

  • --offline, 表示BUSCO无法尝试下载文件。

  • --out_path OUTPUT_PATH, 结果文件夹的可选位置,不包括结果文件夹名称。默认为当前工作目录。

  • -q, --quiet, 禁用信息日志,仅显示错误。

  • -r, --restart, 继续已经部分完成的运行。

  • --scaffold_composition, 将每个scaffold的ACGTN内容写入文件scaffold_composition.txt。

  • --tar, 压缩某些包含大量文件的子目录以节省空间。

  • --update-data, 下载并替换所有谱系数据集和必要文件的最新版本。

本文阅读量  次
本站总访问量  次