NCBI的基因entrez ID相关文件介绍

地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

NCBI的基因entrez ID相关文件介绍

我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:

NCBI的基因entrez ID相关文件介绍

一:第一个文件是gene2ensembl

NCBI的基因entrez ID相关文件介绍

NCBI的基因entrez ID相关文件介绍

第一列:物种ID号

第二列:gene的entrez ID号

第三列:Ensembl_gene ID号

第四列:RNA的NCBI索取号

第五列:RNA的Ensembl_ ID号

第六列:protein的NCBI索取号

第七列:protein的Ensembl_ ID号

一般,一个gene有多个蛋白

7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本

 

第二个文件是gene2accession

NCBI的基因entrez ID相关文件介绍

第一列:物种ID号

第二列:gene的entrez ID号

第三列:status

第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi

第五列:protein_accession.version ,protein_gi

第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi

第七列:然后是start和end的pos坐标,还有正负链的标记

第八列:

第三个文件是 gene2pubmed

NCBI的基因entrez ID相关文件介绍

总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign – start of a comment)

其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

NCBI的基因entrez ID相关文件介绍

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category

其中一个物种里面有多个基因,一个基因会有多个GO通路

第五个文件是gene_info      

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。

原文来自:http://www.bio-info-trainee.com/75.html

  • 版权声明 本文源自 生信菜鸟团 整理整理发表
  • 除非特殊声明,本站文章均为原创,转载请务必保留本文链接

您必须才能发表评论!