跳转至

interproscan

InterProScan是一个用于基因组序列功能注释的工具,它可以预测蛋白质和核酸序列的功能、结构和域。InterProScan基于多个数据库(如InterPro、Pfam、PRINTS、Prosite等)中的注释信息和模式,并利用序列比对和统计分析来推断序列的功能特征。

网页API

EBI提供了远程计算服务,通过 iprscan5.pliprscan5.py 可以将本地的序列文件上传到InterProScan官网后台计算,结果返回本地。本地不需要消耗计算资源,需要能联网,可直接在登录节点运行。每条序列返回一个结果文件。

$ wget https://raw.githubusercontent.com/ebi-wp/webservice-clients/master/perl/iprscan5.pl
$ chmod +x iprscan5.pl

$ ./iprscan5.pl --multifasta test_all_appl.fasta --maxJobs 25 --useSeqId --email test@test.com --outformat tsv
Submitting job for: UPI00043D6473
JobId: iprscan5-R20231012-030441-0244-77128907-p1m
RUNNING
RUNNING
RUNNING
RUNNING
FINISHED
Creating result file: UPI00043D6473.tsv.tsv
Submitting job for: UPI0004FABBC5
JobId: iprscan5-R20231012-030556-0901-62528903-p1m
RUNNING
RUNNING
RUNNING
RUNNING
FINISHED
Creating result file: UPI0004FABBC5.tsv.tsv
Submitting job for: UPI0002E0D40B
JobId: iprscan5-R20231012-030716-0570-58059556-p1m

$ ls
UPI00043D6473.tsv.tsv UPI0004FABBC5.tsv.tsv

本地运行

官方文档:https://interproscan-docs.readthedocs.io

$ module load interproscan/5.55-88.0
$ interproscan.sh -i <input_file> -o <output_directory> [options]
  • -i:指定输入文件,可以是蛋白质或核酸序列文件。
  • -o:指定输出目录,用于保存结果文件。
  • -f:指定输出格式,默认为tsv(Tab-separated values)。其他可选格式包括json、xml、html等。
  • -cpu:指定CPU核心数,用于并行计算,默认为1。
  • -goterms:生成Gene Ontology (GO) 注释信息。
  • -pathways:生成kegg pathway 注释信息。
  • -appl:指定要运行的特定应用程序模块。例如,-appl CDD将只运行CDD模块,-appl Pfam,Smart将同时运行Pfam和Smart模块。
  • -iprlookup:启用InterPro数据库匹配,用于进一步注释已预测的域。

基本使用

由于interproscan是个计算密集型程序,每条序列的计算需要花费不少时间。因此,程序默认会将用户的序列与interpro官方已有的数据比较,如果用户提交的序列与官方已有数据完全匹配,则直接返回已经计算好的结果,此过程需要联网。如果无网络链接,程序会报错。

$ module load interproscan/5.55-88.0
$ interproscan.sh -i test_single_protein.fasta -f tsv -cpu 20

离线使用

在离线环境中可以添加 -dp 选项,使所有计算均在本地完成,耗时较长。

$ module load interproscan/5.55-88.0
$ interproscan.sh -i test_single_protein.fasta -f tsv -cpu 20 -dp

Tips

由于集群计算节点没有联网,使用本地计算服务程序时,需要添加 -dp 选项。

本文阅读量  次
本站总访问量  次