GenBank数据库格式的说明

2012/02/23评论8,652

GenBank是美国国立卫生研究院维护的基因序列数据库，汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组：有些按照系统发生学划分，另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表，或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立，与日本DNA数据库（DDBJ）以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库（EMBL）一起，都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交，而三个中心之间则逐日交换信息，并制作相同的充分详细的数据库向公众开放（虽然格式上有细微的差别，并且所使用的信息系统也略有不同）。

GenBank数据库格式的详细说明请参考NCBI在线说明：

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

下表分别对比列出EMBL和GenBank数据库格式：

EMBL	GenBank	含义
ID	LOCUS	序列名称
DE	DEFINITION	序列简单说明
AC	ACCESSION	序列编号
SV	VERSION	序列版本号
KW	KEYWORDS	与序列相关的关键词
OS	SOURCE	序列来源的物种名
OC	ORGANISM	序列来源的物种学名和分类学位置
RN	REFERENCE	相关文献编号，或递交序列的注册信息
RA	AUTHORS	相关文献作者，或递交序列的作者
RT	TITLE	相关文献题目
RL	JOURNAL	相关文献刊物杂志名，或递交序列的作者单位
RX	MEDLINE	相关文献 Medline引文代码
RC	REMARK	相关文献注释
RP		相关文献其它注释
CC	COMMENT	关于序列的注释信息
DR		相关数据库交叉引用号
FH	FEATURES	序列特征表起始
FT		序列特征表子项
SQ	BASE COUNT	碱基种类统计数
空格	ORIGIN	序列

发表评论