JASPAR:转录因子motif数据库

JASPAR是一个免费公开的转录因子数据库,在该数据库中收录了转录因子的mitif信息,可以用来预测转录因子与序列的结合区域。网址如下

http://jaspar.genereg.net/

在该数据库中,提供了以下9种不同来源和类别的转录因子信息

1. JASPAR CORE

该类别下都是从文献中收集的,有实验证据支持的真核生物转录因子motif信息,而且经过了人工核对,是一个非冗余的,高质量的转录因子motif数据库,所以也是整个数据库中的核心。

由于其高质量量,非冗余等特性,通常情况下,该类别信息都是我们的第一选择。每个motif编号以MA开头,示意如下

2. Collection CNE

该数据集包含了233个调控人类非编码基因的转录因子motif信息,是根据Xie et al. (PNAS 2007)文章中的数据收集整理的,编号以CN开头,示意如下

3. Collection FAM

该类别下保存的是转录因子的类别class信息,多个转录因子可以拥有相同的调控序列,将调控序列相同的转录因子归为一类。每个class的编号以MF开头,示意如下

4. Collection PBM

该类别下是运用体外技术分析了104个小鼠的转录因子后得到的motif信息,每个motif编号以PB开头,示意如下

5. Collection PBM HLH

和PBM类似,只不过该类别下是 C. elegans bHLH的19个转录因子的信息,物种不同,该类别下的motif编号以PL开头,示意如下

6. Collection PBM HOMEO

该类别下包含的是小鼠的转录因子motif信息,是从文献Berger et al (Cell 2008)整理得到的,每个motif编号以PH开头,示意如下

7. Collection PHYLOFACTS

该类别下分析的是哺乳动物进化保守基因的转录因子motif信息,对应的文章为

Systematic discovery of regulatory motifs in human promoters and 3’ UTRs by comparison of several mammals

每个motif的编号以PF开头,示意如下

8. Collection POLII

该类别包含的是RNA聚合酶结合区域的motif序列,每个motfi编号以PL开头,示意如下

9. Collection SPLICE

该类别包含的是human剪切位点的motif序列,数据量很小,一共只有6个motif, 每个motif编号以SA开头,示意如下

每个collection都是一个小的子集,core 是整合了所有这些子集,从而构建的非冗余数据集。在core数据集中,将物种分层了一下6大类别

通过官网的检索功能,可以方便的进行检索,示意图如下

在检索出的motif详情页面,提供了许多信息,以MA0001.1为例

1. 基本信息

包括名字,编号,类别,对应的物种等信息,示意如下

motif每个bp上碱基的分布,碱基的大小与对应的频率成正比,频率越大,对应的字母越大,示意如下

3. position frequency matrix

简称PFM, motif每个bp上四种碱基的频数分布,提供了多种格式的下载,示意如下

4, Binding sites

红色标识的是motif对应的具体的序列,示意如下

该数据库提供了下载功能,主要是motif对应的PFM矩阵,示意如下

JASPAR数据库是免费的,但是相比TRANSFAC数据库, 还是有很多不足之处,首先就是motif数量的差异,比TRANSFAC数据库少了许多,其次就是信息的类别上,JASPAR只提供了motif信息,并没有直接的转录因子调控的靶标基因的信息。

通过JASPAR数据库,我们只能获取转录因子的motif信息,然后通过软件去预测和DNA序列的结合位点,即TFBS。

发表评论

匿名网友