对Protein序列进行InterPro注释

使用EBI的InterPro数据库,能对蛋白序列通过结构域方法进行基因家族分类注释。InterPro数据库整合了13个基因家族、结构域和功能位点的数据库,包括Pfam和CDD等。此外,InterPro也整合了跨膜区和信号肽等结构分析方法。

1. 使用EBI提供的InterPro网页工具对少量蛋白序列进行注释。

在网页工具中可以输入多条序列进行InterPro注释,但要求一次提交蛋白序列的氨基酸总数量不超过40,000。按正常一个蛋白序列的氨基酸长度约为500aa算,一次性提交最大的蛋白序列数量约为80条。因此,要对基因组层面约上万个基因进行InterPro注释,则采用命令行的方式进行计算。

2. 使用EBI提供的InterProScan 5网页API服务进行批量化InterPro注释

EBI官网提供了iprscan5.pliprscan5.py程序,可以用于将本地计算机上的fasta序列文件提交到InterProScan 5网页API服务,进行注释后,将结果返回给本地。此时,不需要在本地计算机上进行计算,只需要联网提交数据,接受结果即可。然后,可以自己编写程序对全基因组的蛋白序列进行分割,再并行化化调用iprscan5.pl程序将数据上传并进行注释。需要值得注意的是,并行化提交的任务数量要少于30。

需要注意的是,iprscan5.pl或iprscan5.py程序进行分析不再能得到svg和html结果了。若需要这两种结果,则需要本地化部署InterPro数据库和InterProScan软件进行分析。

3. 本地化部署InterPro数据库和InterProScan软件进行InterPro注释

下载InterPro数据库和InterProScan软件。当前最新版本为InterProScan 5.51-85.0,即InterProScan软件版本为5.51,数据库版本为85.0。

lftp -e 'pget -n 20 http://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.51-85.0/interproscan-5.51-85.0-64-bit.tar.gz; exit'

使用InterProScan对全基因组蛋白序列进行注释分析。

发表评论

匿名网友