GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。
GenBank数据库格式的详细说明请参考NCBI在线说明:
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
下表分别对比列出EMBL和GenBank数据库格式:
| EMBL | GenBank | 含义 |
| ID | LOCUS | 序列名称 |
| DE | DEFINITION | 序列简单说明 |
| AC | ACCESSION | 序列编号 |
| SV | VERSION | 序列版本号 |
| KW | KEYWORDS | 与序列相关的关键词 |
| OS | SOURCE | 序列来源的物种名 |
| OC | ORGANISM | 序列来源的物种学名和分类学位置 |
| RN | REFERENCE | 相关文献编号,或递交序列的注册信息 |
| RA | AUTHORS | 相关文献作者,或递交序列的作者 |
| RT | TITLE | 相关文献题目 |
| RL | JOURNAL | 相关文献刊物杂志名,或递交序列的作者单位 |
| RX | MEDLINE | 相关文献 Medline引文代码 |
| RC | REMARK | 相关文献注释 |
| RP | 相关文献其它注释 | |
| CC | COMMENT | 关于序列的注释信息 |
| DR | 相关数据库交叉引用号 | |
| FH | FEATURES | 序列特征表起始 |
| FT | 序列特征表子项 | |
| SQ | BASE COUNT | 碱基种类统计数 |
| 空格 | ORIGIN | 序列 |

