7.功能基因组相关信息分析(生物信息学教程系列)

评论3,895

生物信息学教程系列

第七章

7 功能基因组相关信息分析

功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中的扮演关键角色。

7.1 大规模基因表达谱分析

随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA序列测定艰巨得多的任务,因为基因表达是依赖于许多因素的动态过程。

国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上的 cDNA 芯片(cDNA微阵列)技术和蛋白质层次上的二维凝胶电泳和测序质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平。

对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持

下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。

1.实验室信息管理系统

cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为,这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。

该系统除用来定位和跟踪材料来源(例如,克隆,微阵列,探针)外,还必须管理实验前后大量的数据。此外,还包括实验室设备软件系统,如斯坦福大学Brown实验室免费的控制自制机器点样设备软件(http://cmgm.standford.edu/pbrown)

芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。

美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cDNA芯片数据管理分析系统ArrayDB,涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。

ArrayDB

ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器自动点样、扫描和图象处理。ArrayDB中保存的数据包括实验来源、实验参数和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯片上每个克隆的相关信息,包括基因的简单描述、GenBank号、IMAGE克隆识别号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA芯片制造和实验条件的信息。包括点样相关数据(点样机器的参数)、环境条件(温度、湿度、点样针冲洗条件)等数据。此外,还保存了杂交探针和实验条件,包括研究者的姓名,研究目的和实验条件、组织细胞类型的文本描述。有关杂交的结果的信息包括扫描图象(“原始”结果)、信号强度数据、信号强度比值和本底值。

ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输入,大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动的。软件会自动扫描目录查找新输入数据库中的信号强度数据无须人工辅助,其它自动处理包括很方便地整合信号强度数据和克隆数据。

ArrayDB的Web界面能很方便地进行不同类型信息的查询,从克隆信息到信号强度值到分析结果。ArrayDB支持各种字段的数据查询,例如克隆ID、标题、实验编号、序列获取号、微量滴定板编号以及相关克隆的结果。每个克隆的更多信息通过超文本链接至其他数据库如dbEST、GenBank或Unigene,代谢途径信息也可通过链接至KEGG得到。

通过序列相似性搜索可以有效地寻找目的基因。ArrayDB支持对10K/15K数据(软件自带数据)进行BLASTN搜索以便确定目的基因是否已包含在芯片中。

ArrayDB能分析单个和多个实验产生的信号强度比值的类型和关系。ArrayViewer工具支持查询和分析单个实验;MultiExperiment viewer工具支持多个实验数据。在下述网站可得到更详细信息和相关软件。

DeArray和ArrayDB网址: http://www.nhgri.nih.gov/DIR/LCG/15K/HTML

2.基因表达公共数据库

数据库用途

(1)基础研究 将来自各种生物的表达数据与其它各种分子生物学数据资源,如经注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控网络、代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达谱的相似性能帮助推测未知基因的功能。

(2)医学及药学研究 例如,如果特定的一些基因的高表达与某种肿瘤密切相关,可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降低表达水平的化合物(潜在药物)。

(3)诊断研究 通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具有临床价值。

(4)毒理学研究 例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。

(5)实验质量控制和研究参考 实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外,还能提供其他研究者的研究现状,避免重复实验,节约经费。

数据库的特点和难点

目前急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达水平相对定量方法以及不断增长的庞大数据量。

目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实验比较而言,或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数,转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测,甚至不同实验室采用相同技术,都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤:首先,原始数据应避免任何改动,比如采取数据标准化(data-normalization)的方法。其次,在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。

另一难点是对实验条件的描述,解决方法是对实验方法用采用规范化词汇的文件描述:如基因名称,物种,发育阶段,组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验,同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语,这有待时间去发展。但目前,就应采用尽可能合理的标准用于DNA芯片数据及其注释。

标准化的基因表达公共数据库要有五类必要的信息:

(1)联系信息:提交数据的实验室或研究人员的信息。

(2)杂交靶探针信息:对阵列上的每个“点”,应有相应的DNA序列在公共数据库中的编号。对cDNA阵列,克隆识别号(如IMAGE clone_id)应给出。

(3)杂交样本:细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组织和组织病理词汇可被采用,还可采用胚胎发育和器官发生中的标准词汇。样本来源种属的分类学名称(如Saccharomyces cerevisiae,Homo sapiens),应当提供。对有些生物体如啮齿类动物和微生物,品系资料需要提供。关于实验中生物体状况的资料,如用药或未用药非常关键,也需提供。“肿瘤与正常”或不同发育阶段也该注明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的,如酵母基因缺失和转基因鼠。最后,由于组织处理的会引起差别,故应包括相关的详细处理方法。

(4)mRNA转录定量:这方面非常关键,很难通过一组“持家基因”做内参照进行标准化,有关的具体定量方法应提供。

(5)统计学意义:理想地,应经济合理地有足够的次数重复一个实验以便给出基因表达测定的变异情况,最好能提供合理的可信度值。

上述表达数据记录的前两个要求是简单的,第三个要求较困难需有标准术语协议,但这并不只是表达数据的要求,类似的要求已在公共序列数据库或专业化的数据库中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。

现状和计划

几个大的芯片实验室如斯坦福大学和麻省理工学院Whitehead研究所等,在发展实验室内部数据库;大的商业化芯片公司如Affymetrix, Incyte,GeneLogic,正在开发基于Affymetrix芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个的数据库,数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。

目前至少有3个大的公共基因表达数据库项目:美国基因组资源国家中心的GeneX;美国国家生物技术信息中心(NCBI)的Gene Expression Omnibus;欧洲生物信息学研究所(EBI)的ArrayExpress.

欧美专家合作提出有关数据库的初步标准:实验描述和数据表示的标准;芯片数据XML 交换格式;样本描述的术语;标准化、质量控制和跨平台比较;数据查询语言和数据挖掘途径。(http://www.ebi.ac.uk/microarray/)。EBI与德国癌症研究中心正在开发ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据,可操作的数据库将于近期建立(http://www.ebi.ac.uk/arrayexpress)。

3.大规模基因表达谱数据分析方法

芯片分析能够检测不同条件下的基因转录变化,能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现,产生了新的问题:如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统单个成分的定性发展到完整生物系统行为的描述上来,这方面困难很多,目前只有很少的分析工具。

聚类分析(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这些分析方法均处在研究的初级阶段,随着大量数据及标准化数据库的出现,其它数据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。

聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。

斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEVIEW,采用配对平均连锁(pairwise average-linkage)聚类分析。这种方法中,每个不同的基因与其它的基因比较,鉴定最相关的基因对。这种基因对的数据用平均数替代,再重新计算关系矩阵,不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出,将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观,但其算法仍有缺陷之处:实际数据由每次重复的平均数据替代;相似性测定的选择(相关性/Eluclidean距离);将等级模型用于非等级过程;成对比较矩阵的计算负担。因此,出现了其它方法,包括自组织图(self organizing maps,SOMs),二进制决定-退火算法(binary deterministic-annealing algorithm),k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。

CLUSTER和TREEVIE下载网址:http://www.genome.standford.edu

基于知识挖掘的机器学习方法

最近发展了一种的有监督的机器学习方法-支持向量机(support vector machines,SVMs)来分析表达数据,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法(unsupervised clustering)和自组织图(self-organizing maps)不同,该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法,例如层级(hierarchical)和K-means聚类,假设每个基因仅属于一“类”(cluster)。这在生物学意义上当然不是真实的。而且,事实上同一类基因不是必然意味着有相似的表达类型。比如,k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”,并不总是有意义。需要对类(cluster)进行质量评价,“类”的“严谨性”和外围基因的存在(如果存在,它们与下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比,有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。首先,对每个基因,应询问最近的邻居是否它与它们的关系是有生物学意义的。其次,对已知共调控基因,应该询问它们的表达类型是否相似,如果是这样,还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。第三,应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后,“类”可通过每个无监督的“类”的核心基因训练SVMs的方法来检测和优化。

可视化

大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径,如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库,可为基因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控并建立模型。 

7.2 基因组水平蛋白质功能综合预测

蛋白质之间的功能联系

基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图,Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。通过比较系统发育(进化)谱和表达类型,以及通过分析结构域融合(domain fusions)新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。酵母未定性蛋白大约一半总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性,这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用,与大规模蛋白质功能实验互为补充。

构建通路和专配有用模型的信息来自实验,最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括采用大规模实验方法如双杂交系统(two-hybrid system)、质谱法(mass spectrometry,MS)、二维凝胶电泳(2D PAGE)和DNA芯片杂交(DNA microarray hybridization)。任务大小和复杂性可由下面的假定理解:每个蛋白质有5-50个功能连锁,结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能,但是它们有时不是迅速廉价的,且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族,因此有相似的序列、结构,经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是,通过同源性进行功能预测受两方面的因素制约。首先,它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次,不是总清楚匹配的蛋白质何种功能特性为其共享,尤其对那些距离较远的匹配。

Marcotte等和Enright等并未受此限制,因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是,将同样通路和装配的蛋白质分组,定义为“功能连锁”(functionally linked).Marcotte等针对出芽酵亩基因组蛋白质采用了三种不同的方法:系统发育谱(phylogenetic profiles),结构域融合(domain-fusion analysis)和相关mRNA表达类型(correlated messenger RNA expression patterns)。Enright等独立发展了结构域融合分析,采用新的聚类算法用于三个原核基因组分析。

系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统发育谱,定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能连锁(functionally linked)。因此,根据系统发育谱进行的蛋白质聚类,当未知蛋白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信息。

结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白(component proteins)组成的融合蛋白(fusion proteins)。这样的成分蛋白被认为彼此物理上有相互作用。在两个相互作用成分蛋白之间的界面(interface)更有可能进化当两个蛋白融合为一条单一链。著名的例子是,从细菌到真菌的色氨酸合成酶的α和β亚单位。在一些方面,结构域融合分析与从基因邻近效应(gene proximity)推测功能连锁相似。

Marcotte等也通过关联它们的mRNA表达类型来对酵母蛋白质进行分类。这些类型来自97组公共DNA芯片数据,显示了大多数酵母蛋白质在正常生长、葡萄糖缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同条件下表达水平相互关联的蛋白质是功能连锁的。

新的功能注释经常是广义的,限制蛋白质的功能为,“代谢”或“转录”。即使随机的一对蛋白质也有50%的相似机率在这样广义的水平上。但是因为注释一般来自许多连锁,比随机连锁信息量大3-8倍,在一些例子中与蛋白-蛋白相互作用的实验决定相比。 例如,Marcotte等建立了新的MSH6的连锁,在某些结肠癌中的DNA错配修复蛋白,属于PMS1错配修复家族,其中的突变也与人结肠癌、嘌呤生物合成途径、RNA修饰酶和一个未知的蛋白质家族相关,这样它们可以通过核酸修复或修饰来研究。

这样的注释精确度如何?能覆盖多少比例的蛋白质?这些问题只能部分提出,因为参考的功能连锁蛋白质不是很容易得到。Marcotte和同事给酵母2,557个未知蛋白的一半预测了一般功能。他们估计成对预测来确定功能的近30%是错误的,虽然两到三种方法联合应用使错误率降到15%。

Enright等通过结构域融合在三个原核基因组中仅功能连锁215个蛋白,但是非常少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和mRNA表达方法丢失了连锁(作者没有做这两种方法),融合事件更严格的定义以及用较少的蛋白检测融合。尽管假阳性和显得粗糙的功能注释,计算方法使得实验者将注意力集中在有希望的相互作用上。当得到更多的基因组数据,结构域融合和系统发育谱的方法的预测数和精度将增加。

下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上,通过考虑三维结构来做,因为蛋白质的功能更多直接由它的结构和动力学而不是它的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢?至少有两个原因。首先,只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组学(structural genomics)的进展而减少。结构基因组学的目标是确定大约10,000经仔细挑选的蛋白质结构域的结构,以便所有其它的蛋白质序列能够有很好的精确性建模。其次,能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种结构的细节,同样也依赖于它的动力学和能量,所有这些在现有的实验和理论技术下难以获得。

发表评论

匿名网友