专注提供医学课件PPT幻灯片素材下载

网站使用问题请加Q1615251280及时解决,谢谢。

当前位置:首页 > 医疗设备科 > 第七章 生物芯片.ppt

第七章 生物芯片.ppt

第七章 生物芯片.ppt
PPT课件名称:第七章 生物芯片.ppt 时 间:2023-11-03 i d:14095 大 小:207.41 KB 贡 献 者:文化ihdsi 格 式:.rar 点击下载
注意:ppt文件打包为rar压缩包格式,请用解压缩软件(例如WinRAR)打开,若无法正常下载使用请加客服QQ客服1615251280解决。
第七章 生物芯片.ppt

  第七章 生物芯片

  本章提要:生物芯片被誉为20世纪生物学最重大发明技术之一。本章首先对生物芯片作了简要介绍,然后从生物芯片的分类、基本原理、应用和数据的处理与分析几个角度学习生物芯片有关的基本知识。

  §7.1生物芯片简介

  生物芯片(Biochip) 又称微阵列(microarray)。这一名词是20世纪80年代初提出来的,美国海军实验室Carter等科学家试图把有机功能分子或生物活性分子进行组装,构建微功能单元,实现信息的获取、储存、处理和传输功能。真正的生物芯片出现于20世纪90年代,DNA微阵列技术自1995年诞生之时,就被预言为具有划时代意义的技术,将从根本上改变生物科技的面貌。

  生物芯片将生命科学研究中所涉及的不连续的分析过程(如样品制备、化学反应和分析测试),利用微电子、微机械、化学、物理技术、计算机技术在固体芯片表面构建的微流体分析单元和系统,使之集成化、微型化。

  生物芯片主要是指采用光导原位合成或微量点样等技术,将大量生物分子如核酸片断、多肽片断、组织切片、细胞等有序地固定于支持物(如玻片、硅片、聚丙烯酰胺、尼龙膜等)的表面,组成密集、有序的二维分子阵列,然后与已标记的待测生物样品中靶分子杂交,通过特定的仪器如激光共聚焦扫描或电荷偶联摄像机(CCD)对杂交信号的强度进行快速、并行、高效的检测分析,从而判断样品中靶分子的数量。

  微阵列的主要应用在于对基因表达问题的研究,特别是在人类基因组和其它生物基因组计划完成之后,我们需要从全基因组水平定量或定性检测转录产物mRNA。基因表达数据与基因组数据相比,更为复杂,数据量更大,数据的增长更快。基因表达数据中包含着基因活动的信息,可以反映细胞当前的生理状态。

  通过对该数据矩阵的分析,可以回答一系列的生物学问题:基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定条件下,哪些基因的表达发生了显著变化,这些基因受到哪些基因的调节,或控制哪些基因的表达?

  微阵列广泛应用的另一个重要原因是为了理解基因网络(network)或通路(pathway)。传统的分子生物学方法针对“一个基因一个实验”的设计思路,其通量极为有限,同时也无法获得基因功能的整体框架。

  例如,传统方法研究基因之间相互作用关系的方法之一是通过“基因敲除”技术来实现,只能在很小规模上观测对相同或不同组织中对其它基因表达的影响,而微阵列可以在单一芯片上同时监测整个基因组的变化,因而可以同时理解成千上万个基因之间的相互作用,对整个表达谱有一全面理解。

  生物芯片会对21世纪的生命科学和医学的发展产生巨大的影响,可以大大促进后基因组计划的各项研究。通过比较不同个体或物种之间以及同一个体在不同生长发育阶段,正常和疾病状态下基因转录及其表达的差异,寻找和发现新基因,研究它们在生物体发育、遗传、进化等过程中的功能。

  生物芯片还将在研究人类重大疾病如癌症、心血管病等相关基因及其相互作用机理方面发挥重要作用。在预防医学方面,生物芯片可以使人们尽早认识自身潜在的疾病,并实施有效的防治。

  §7.2生物芯片的种类

  7.2.1 生物芯片的分类

  1、根据支持介质划分 制备芯片的固相支持介质有玻片、硅片、聚丙烯酰胺、尼龙膜等。选择固相支持介质考虑的主要因素有:荧光背景的大小、化学稳定性、结构复杂性、介质对化学修饰作用的反应、介质表面积及其承载物能力及非特异性吸附程度等因素。

  2、根据制备方法划分 芯片制备的方法主要有原位合成和直接点样法。其中原位合成的代表技术是先引导聚合法,其中最具有代表性的有Affymetrix公司的多寡核苷酸微阵列,此外还有喷墨打印合成法,代表是Agilent公司的微阵列。直接点样法用聚丙烯酰胺凝胶作为支持介质,将凝胶固定在玻璃上,然后将合成好的不同探针分别加到不同的胶块上,制成以胶块为阵点的芯片。

  3、根据芯片上固定的探针划分 生物芯片按其探针分为基因芯片(Gene Chip)、蛋白质芯片(Protein Chip)、细胞芯片、组织芯片等。如果芯片上固定的分子是寡核苷酸探针或DNA,就是DNA芯片。DNA芯片又细分为寡核苷酸芯片、DNA芯片和基因芯片。

  7.2.2 几种常见的生物芯片

  1、基因芯片 基因芯片是目前最重要的生物芯片,又称DNA芯片(DNA Chip)或DNA微阵列(DNA microarray)。

  基因芯片这一技术方法是1991年首次提出的,该技术将成千上万的探针同时固定于支持物上,所以一次可以对大量的DNA分子或RNA分子进行检测分析,从而解决了传统核酸印迹杂交等技术复杂、自动化程度低、检测目的分子数量少、低通量等不足。而且,通过设计不同的探针阵列(array),还可以用于序列分析,称为杂交测序(SBH)。

  基因芯片以其无可比拟的信息量、高通量、快速、准确的分析基因的能力,在基因功能研究、基因诊断及药物筛选等方面显示了巨大的威力,被称为是基因功能研究领域的最伟大发明之一。基因芯片以其高通量、并行检测等特点适应了分析人类基因组计划对海量生物信息提取、分析的需要。

  深入研究基因突变和基因表达的有效方法的需求是基因芯片发展的动力。结构基因组学研究所有基因的结构和染色体定位,用传统的方法费时费力,基因表达谱研究基因表达产物在机体发育、分化及疾病中的作用巨大。由于基因芯片高速度、高通量、集约化和低成本的特点,诞生以后就受到科学界的广泛关注。

  2、蛋白质芯片 蛋白质芯片,又称蛋白质微阵列(protein microarray),是指固定于支持介质上的蛋白质构成的微阵列。蛋白质芯片与基因芯片类似,是在一个基因芯片大小的载体上,按使用目的的不同,点布相同或不同种类的蛋白质,然后再用标记了荧光染料的蛋白质结合,扫描仪上读出荧光强弱,计算机分析出样本结果。

  从理论上讲,蛋白质芯片可以对各种蛋白质进行检测,弥补基因芯片检测的不足,不仅适合于抗原、抗体的筛选,同样也可用于受体配体的相互作用的研究,具有一次性检测样本巨大、相对低消耗、计算机自动分析结果以及快速、准确等特点。

  基因芯片通过检测mRNA的丰度或者DNA的拷贝数来确定基因的表达模式和表达水平,然而mRNA的表达水平(包括mRNA的种类和含量)并不能反应蛋白质的表达水平,许多功能蛋白质还有翻译后修饰和加工,如磷酸化、羰基化、乙酰化、蛋白质水解等修饰,直接进行蛋白质分析是蛋白质组研究领域的重要内容。

  目前蛋白质组学研究的主要技术是质谱(MS)和双向凝胶电泳(2D-PAGE)。MS是一种十分有用的检测工具,但目前尚不能用于定量分析;2D-PAGE技术由于样本需求量大、操作复杂也不能满足医学诊断的需求。因而,蛋白质芯片刚刚兴起就成为研究热点。

  蛋白质芯片技术的优点主要体现在;①能够快速并且定量分析大量蛋白质;②蛋白质芯片使用相对简单,结果正确率较高,只需对少量血样标本进行沉降分离和标记后,即可加于芯片上进行分析和检测;③相对传统的酶标ELISA分析,蛋白质芯片采用光敏染料标记,灵敏度高准确性好。此外,蛋白芯片的所需试剂少,可直接应用血清样本,便于诊断,实用性强。

  3、组织芯片 组织芯片是将多种组织切片代替核酸或蛋白质,按照一定顺序固定在玻片上。其优点在于可以原位检测信号发生的位置,缺点是切片较大,因而不能在一张片子上大规模固定多个样品。同时,由于组织切片的样品来源很不稳定,每张玻片之间都不相同,重复性和稳定性一直是一主要问题。不过,将芯片概念引入免疫组化和原位杂交中确实是一概念和技术上的突破。

  §7.3 基因芯片的基本原理

  7.3.1 基因芯片基本原理和基本流程 7.3.1.1基因芯片的基本原理

  基因芯片的原型是20纪80年代中期提出的。基因芯片的基本原理是通过杂交的方法,即通过与一组已知序列的核酸探针杂交进行核酸的分析。

  基因芯片有寡核苷酸芯片、cDNA芯片和Genomic芯片之分,包括两种模式:一是将靶DNA固定于支持物上,适合于同一探针对不同靶DNA的分析;二是将大量探针分子固定于支持物上,适合于对同一靶DNA进行不同探针序列的分析。

  根据基因芯片的应用又主要分为两大类:用于研究基因型和用于检测RNA的表达。从本质上来讲,前者实际上是利用基因芯片进行序列分析,其中包括识别DNA序列的突变和研究DNA的多态性;而后者则是利用基因芯片研究序列的功能。

  7.3.1.2 基因芯片的基本流程

  图8-1 cDNA微阵列工作流程图

  基因芯片技术包括四个主要步骤:芯片制备、样品制备、杂交反应、信号检测和结果分析。首先提出基因芯片所要解决的问题,确定研究目标,例如,研究基因的SNP。检测或分析DNA的变异或者进行基因差异表达的研究。

  根据所要解决的问题,选择一组特定的基因对象。其次,根据所选择的基因序列,设计探针序列以及探针在芯片上的分布。然后根据设计结果制备基因芯片,制备方法大致分为在片合成法和点样法。接下来就是对靶基因即待测样品进行扩增和标记,然后进行杂交实验,并对基因芯片的杂交结果进行检测,最后根据获得的荧光图谱,进行数据处理分析,报告检测结果,并将相应的数据存入数据库。

  1、基因芯片的制备 基因芯片的制备主要包括两个方面:一是基因芯片的设计;二是基因芯片的制作。前者又包括基因芯片上探针的设计和探针在芯片上布局的设计。

  1)基因芯片设计:目的在于提取更多的生物分子信息,并提高信息的可靠性。基因芯片设计包括寡核苷酸探针或cDNA探针设计、探针布局和芯片优化。根据参照序列设计探针,尽可能使最终芯片的荧光检测图像中完全互补杂交信号突出,提高基因芯片检测的可靠性。芯片优化是指在设计后续阶段对芯片制备过程进行优化,如减少制备芯片所需要的掩膜板,精简探针合成环节。

  在芯片设计的不同阶段,都要用到信息学中的优化方法,如探针优化、布局优化及芯片优化。各种基因芯片的功能不同,相应的芯片设计要求和设计方法也有所不同,必须根据具体的芯片功能采用不同的设计方法。基因芯片两大不同应用是基因组规模的DNA变异分析和基因表达比较分析,从芯片设计方面来看,这两大类应用具有许多共同的要求,但在一些重要的方面却存在着很大的差异,必须在设计方面加以考虑。

  在进行探针设计和布局时必需考虑以下几个方面: ①互补性:探针与待检测的目标序列片段互补; ②敏感性和特异性:要求探针仅仅对特定目标序列片段敏感,而对其他序列不产生杂交信号; ③容错性:通过探针设计,提高基因芯片检测的容错性,常用的方法是使用冗余探针;

  ④可靠性:通过探针设计,提高基因芯片检测的可靠性; ⑤可控性:在基因芯片上设置质量监控探针,以便于监控基因芯片产品的质量; ⑥可读性:通过探针布局,使得最终的杂交检测图像便于观察理解,如将检测相关基因的探针放在芯片上相邻的区域; ⑦高信号量的探针不要影响到其他探针的信号。

  在探针设计方面,最重要的是所有探针的杂交温度要尽量接近。为了提高芯片对杂交错配的辨别能力,人们提出了一种优化设计方法。该方法的基本思想是通过动态调节各个探针的长度及探针之间的覆盖长度,使所设计的各个探针的解链温度Tm最大程度地保持一致,从而有效地提高对碱基杂交错配的辨别能力,提高基因芯片检测结果的可靠性。

  采用生物信息学中常用的动态规划算法进行优化,以使得各个探针具有相近解链温度作为优化目标,筛选并优化组合各候选探针。在优化组合时要求各探针的长度和相邻探针之间的交叠长度满足给定的约束条件,经过优化组合以后得到一组覆盖目标序列的探针。

  2)基因芯片的制作。要成功的制作芯片,需要准备三大材料:准备固定在芯片上的生物分子样品(即探针)、芯片片基和制作芯片的仪器。

  研究目的不同,期望制作的芯片类型不同,制备芯片方法也不尽相同,以DNA芯片为例,基本上可分为两大类:一类是原位合成(即在支持物表面原位合成寡核苷酸探针),适用于寡核苷酸;另一类是点样法,预合成后直接点样多用于大片段DNA,有时也用于寡核苷酸,甚至cDNA。

  原位合成有两种途径,一是原位光刻合成(Affymetri公司专利技术),该方法的主要优点是可以用很少的步骤合成极其大量的探针阵列。采用的技术原理是在合成碱基单体的5’羟基末端连上一个光敏保护基。合成的第一步是利用光照射使羟基脱离保护,然后将一个5’端保护的核苷酸单体连接上去,这个过程反复进行直至合成完毕。

  使用多种掩盖物能以更少的合成步骤生产出高密度的阵列,在合成循环中探针数目呈指数增长。某一个含n个核苷酸的寡聚核苷酸,通过4n个化学步骤能合成出4n个可能结构。

  例如,合成8核苷酸探针,要通过32个化学步骤,8个小时可合成65536个探针。用该方法合成的探针阵列密度可高达106个/cm2。另一种原位合成是压电打印法(piezoelectric printing),原理与普通的彩色喷墨打印机相似,所用技术也是常规的固相合成方法。通过4个喷印头将4种碱基按序列要求依次喷印在芯片的特定位点上,喷印头可在整个芯片上移动。支持物经过包被后,根据芯片上不同位点探针的序列需要将特定的碱基喷印在芯片上特定位置。

  该技术采用的化学原理与传统的DNA固相合成一致,因此不需要特殊制备的化学试剂。每步产率可达到99%以上,可以合成出长度为40-50个碱基的探针。尽管如此,原位合成方法仍然比较复杂,除了在基因芯片研究方面享有盛誉的Affymetrix等公司使用该技术合成探针外,其他中小型公司大多使用合成点样法。

  点样法是将预先通过液相化学合成的探针,或PCR技术扩增cDNA,或基因组DNA经纯化、定量分析后,通过由阵列复制器(arraying and replicating device,ARD)或阵列点样机(arrayer)及电脑控制的机器人,准确、快速地将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上(支持物应事先进行特定处理,例如以带正电荷的多聚赖氨酸或氨基硅烷),再由紫外线交联固定后即得到DNA微阵列或芯片。

  点样的方式分两种:其一为接触式点样,即点样针直接与固相支持物表面接触,将DNA样品留在固相支持物上;其二为非接触式点样,即喷点,它是以压电原理将DNA样品通过毛细管直接喷至固相支持物表面。

  2.靶基因(待测)样品的制备 生物样品往往是非常复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应,必须将样品进行生物处理。根据基因芯片的检测目的不同,可以将样品制备方法分为用于表达谱测量的mRNA样品制备和用于多态性(或突变)分析的基因样品的制备,由于这两种不同的基因芯片在探针设计上有较大的区别,靶基因制备的实验方法也不完全一样。

  与普通分子生物学实验一样,靶基因的制备需要运用常规手段从细胞或组织中提取模板分子,从血液或活组织中获取的DNA/mRNA样品在标记成为探针以前必须进行扩增提高阅读灵敏度,但这一过程操作起来却有一定的难度。例如在一个癌细胞中有成千上万个正常基因在干扰癌基因的检测,对癌基因进行高效、特异地扩增就不是一件很容易的事。因为在一般溶液中进行PCR扩增时,由于靶片段太少,故存在其他不同的DNA片段与其竞争引物的情况。

  美国 Mosaic Technologies公司发展了一种固相 PCR系统,优于传统 PCR技术,此系统在靶 DNA上设计一对双向引物,将其排列在丙烯酰胺薄膜上,每套都可以从靶基因两头延伸。当引物和DNA样品及PCR试剂相混合时,如果样品包含靶序列,DNA就从引物两头开始合成,并在引物之间形成双链DNA环或“桥”。

  由于上述反应在固相中产生,因而避免了引物竞争现象,并可减少残留物污染和重复引发。这种方法无交叉污染且省去液相处理的繁琐。LynxTheqeuhcs公司提出另一个革新的方法,即大规模平行固相克隆(massively parallel solid-phase cloning)可以对一个样品中数以万计的DNA片段同时进行克隆,且不必分离和单独处理每个克隆,使样品扩增更为有效快速。

  对于检测表达的芯片,样品制备通常涉及mRNA的纯化、cDNA的合成、体外转录或者PCR、标记等步骤;而对于SNP或者突变的检测,则往往涉及基因组DNA的纯化和PCR、标记等步骤。在模板扩增过程中,实现对靶基因的标记,根据样品来源、基因含量、检测方法和分析目的不同,采用的基因分离、扩增及标记方法各异。待测样品的标记方法有荧光标记法、生物素标记法、放射性核素标记法等。

  目前采用的最普遍的荧光标记方法是通过在扩增过程中加入含有荧光标记的dNTP(至少一种为荧光标记),在转录和复制过程中荧光标记的单核苷酸分子被引入新合成的DNA片段。

  对于表达芯片分析,常用的几种方法制备和标记靶基因:将纯化的样品RNA通过特定的引物逆转录合成单链cDNA靶基因,在合成的过程中掺入标记物;或者先将待测样品的RNA转录合成cDNA,再进一步通过加入标记物进行体外转录合成cRNA单链靶基因,或者将合成的cRNA加标记物和特殊引物进行PCR扩增,制备成标记的双链靶基因。而对于SNP芯片和突变检测,则需要将纯化的基因组DNA用特定的引物扩增并进行标记。

  3.靶基因的杂交及其信号的检测和分析 基因芯片与靶基因的杂交过程与一般常规的分子杂交过程基本相同。其杂交过程一般先将制备得到的靶基因配制成适当的杂交液。

  适合于在玻璃片的杂交液有多种,比较典型的配方,如杂交溶液配方A(杂交温度 42℃):50%甲酰胺,6×SCC,0.5%SDS,5×Denhardt试剂; 配方B(杂交温度65℃):6×SCC,0.5%SDS,5×Denhardt试剂;配方C(杂交温度65℃):10%SDS,7%的PEG-8000。 用于检测的基因芯片先进行封闭预杂交30min,然后用含有靶基因的杂交液在杂交温度下孵育8-24h,用清洗液清洗后离心干燥。

  杂交条件的选择与研究目的有关,多态性分析或者基因测序时,每个核苷酸或突变部位都必须检测出来,通常设计出一套4种寡核苷酸,在靶序列上跨越每个位点,只在中央位点碱基有所不同,根据每套探针在某一特定位点的杂交严谨程度,即可测定出该碱基的种类。

  如果芯片仅用于检测基因表达,只需设计出针对基因中的特定区域的几套寡核苷酸即可,表达检测需要长的杂交时间,较低的严谨性,更高的样品浓度和低温度,这有利于增加检测的特异性和低拷贝基因检测的灵敏度。突变检测,要鉴别出单碱基错配,需要更高的杂交严谨性和更短的时间。

  此外,杂交反应还必须考虑杂交反应体系中盐浓度、探针GC含量和所带电荷、探针与芯片之间连接臂的长度及种类、检测基因的二级结构的影响。有资料显示探针和芯片之间适当长度的连接臂可以使杂交效率提高150倍。连接臂上的正或负电荷都将减少杂交效率。由于探针和检测基因均带负电荷,因此影响它们之间的杂交结合,为此有人提出用不带电荷的肽核酸(PNA)做探针。

  虽然PNA的制备比较复杂,但与DNA探针比较有许多特点,如不需要盐离子,因此可防止检测基因二级结构的形成及自身复性。由于PNA-DNA结合更加稳定和特异,因此更有利于单碱基错配基因的检测。

  显色和分析测定方法主要为荧光法,其重复性较好,不足的是灵敏度仍较低。目前正在发展的方法还有质谱法、化学发光法、光导纤维法等。以荧光法为例,当前主要的检测手段是激光共聚焦显微扫描技术,以便于对高密度探针阵列每个位点的荧光强度进行定量分析。

  因为探针与样品完全正常配对时所产生的荧光信号强度是具有单个或两个错配碱基探针的5~35倍,所以对荧光信号强度精确测定是实现检测特异性的基础。但荧光法存在的问题是,只要标记的样品结合到探针阵列上后就会发出阳性信号,这种结合是否为正常配对,或正常配对与错配兼而有之,该方法本身并不能提供足够的信息进行分辨。

  通常检测芯片上的杂交信号需要高灵敏度的检测系统——阅读仪(scanner or reader)。阅读仪的成像原理分为激光共焦扫描和CCD成像两种。激光共焦扫描与CCD相比,分辨率和灵敏度较高,但是扫描速度较慢且价格昂贵。经荧光样品杂交后的芯片,荧光信号可以经过荧光显微镜、激光共聚焦显微镜或激光扫描仪进行信号的收集,收集后的信号经过计算机处理,并与探针阵列位点进行比较,可得出杂交的检测结果。

  4.检测结果分析 基因芯片检测结果的分析主要包括三个方面: 1)荧光检测图像分析。基因芯片与荧光样品杂交后,用图像扫描仪器捕获芯片上的荧光图像。许多基因芯片研究机构已开发出一些基因芯片图像处理软件,例如 Gene Pix、ImageGene、BioDiscovery、ScanAlyze等。

  基因芯片图像处理最基本的目标是确定每个芯片单元的荧光强度或荧光强度对比值(多色荧光标记的情况下)。目标看上去虽然简单,但是目前还没有通用的处理方法。扫描和处理基因芯片图像仍需要人工干预,以对齐网格线,保证正确标定每个芯片单元的位置,同时还要能够去除图像上的污点以及其他形式的图像噪声。

  2)检测结果分析。如果芯片检测的目的是测定序列,则要根据芯片上每个探针的杂交结果判断样本中是否含有对应的互补序列,并利用生物信息学中的片段组装算法连接各个片段,形成更长的目标序列;如果检测的目的是进行序列变异的分析,则要根据正确匹配探针以及错配探针(错配探针是指探针中有一个或几个与靶基因核苷酸序列不同的探针)在基因芯片对应位置上的荧光强度,给出序列变化的位点,并指明发生什么变化;

  如果芯片检测的目的是进行基因表达分析,则需要给出芯片上各个基因的表达谱,定量描述基因的表达水平,进一步分析还包括基因表达模式进行聚类,寻找基因之间的相关性,发现协同工作的基因。

  3)检测结果可靠性分析。基因芯片是一个非常复杂的系统,包括许多环节,由于目前技术上的限制,在基因芯片制备、杂交及检测等方面都可能出现误差,芯片检测结果并非100%可靠。

  因此,必须对芯片检测结果作出可靠性的评价。可靠性分析主要从两个方面进行:一是根据实验统计误差(如探针合成的错误率、全匹配探针与错误探针的误识率等),计算出基因芯片最终结果的可靠性;二是对基因芯片与样品序列杂交过程进行分子动力学研究,建立芯片杂交过程的计算机仿真实验模型,以便在制作芯片之前分析所设计芯片的性能,预测芯片实验结果的可靠性。

  §7.4 生物芯片的应用

  生物芯片技术是20世纪90年代中期以来影响最深远的重大科技进展之一,它是集微电子学、生物学、物理学、化学、计算机科学为一体高度交叉的高薪技术,具有重大的基础研究价值,又具有明显的产业化前景。由于使用该技术可以将大量的探针同时固定于支持物上,所以可以对大量生物分子进行检测分析,从而解决了传统核酸印迹杂交技术复杂、自动化程度低、检测目的分子数量少、低通量等不足。

  使用该技术有多种不同的应用价值,如测序、基因表达谱测定、基因诊断、药物筛选等。为后基因组计划时代基因功能的研究及现代医学科学及医学诊断学的发展提供了强有力的工具,将会使新基因的发现、基因诊断、药物筛选、给药个性化等方面取得重大突破,为人类社会带来巨大变革。

  7.4.1 测序

  采用生物芯片测序方法有芯片毛细血管电泳测序和寡核苷酸微阵列杂交测序两种。1999年,加利福尼亚大学伯克利分校Mathies小组首先报道芯片毛细血管电泳测序结果。他们在10分钟内完成了对433个碱基对序列的测定工作。

  用芯片测序的另一种方法是寡核苷酸微阵列测序法,又称杂交测序法(Sequencing by hybridization,SBH)。所谓SBH,就是利用固定探针与样品进行分子杂交产生的杂交图谱从而排列出待测DNA的序列顺序。

  SBH的原理可以通过下面的例子来说明,设有DNA片段AGCCTAGCTGAA,探针为所有的8核苷酸(48=65536种)。将待测DNA和探针按一定比例在适宜温度下混合杂交,完全匹配的序列有5种,TCGGATCG,CGGATCGA, GGATCGAC,GATCGACT和ATCGACTT。这些探针只相差一个核苷酸,由它们可得到待测DNA的互补序列为TCGGATCGACTT,待测DNA序列为AGCCTAGCTGAA。

  最初SBH法是在液相中进行的,因此杂交信号的读取非常困难,而且限制了序列分析的速度。采用DNA探针阵列方法有较大优越性。把一组寡核苷酸探针有序地排列在硅、玻璃等基片表面,组成一二维阵列。在这一阵列中,每一探针都有确定的坐标位置,只要确定了位置就确定了探针,探针与待测DNA杂交,冲洗去非特异性DNA,检测在哪些位点上有杂交信号。

  再通过一定的计算就可以得到待测DNA的序列。Mark Chee等用含135000个寡核苷酸探针的高密度微阵列分析了黑猩猩和人BRCA1基因序列差异,结果发现在外显子11约3.4kb长度范围内的核酸序列同源性在98.2%到83.5%之间,揭示了二者有高度相似性。

  目前SBH还存在若干问题,有待进一步改进。比如,由于众多寡核苷酸组成各不相同,很难找到最佳杂交条件。错配问题,特别是G-T和G-A,难于检测。SBH不适合于重复序列和简单序列单元DNA的测序等。

  7.4.2 基因表达分析

  由于DNA芯片技术可直接检测mRNA的种类及丰度,因而成为研究基因表达的有力工具。检测基因差异表达的操作流程见图8-1。

  cDNA微阵列是在1995年由斯坦福大学率先研制成功并应用于基因表达分析的。首先将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(其长度通常大于200bp)作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每一个点只包含一种cDNA分子,这样就制成了cDNA微阵列。

  一般,探针的序列是已知的。在使用cDNA微阵列时,首先提取组织或细胞系中的mRNA样本,逆转录成cDNA并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;最后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值定量地反映了样本中存在的与探针互补的mRNA丰度,也就是反映了探针所对应基因的表达水平。

  7.4.3 基因诊断

  基因芯片目前最主要的应用之一就是疾病诊断。从正常人的细胞中分离出mRNA后与DNA芯片杂交就可以得出标准图谱。从病人的细胞中分离出mRNA后与DNA芯片杂交就可以得出病变图谱。通过分析比较这两种图谱,就可以得出病变的mRNA表达的信息,即DNA突变发生在何部位,属于什么样的序列突变。

  文献报道了DNA芯片用于检测遗传性乳腺和卵巢癌基因BRCAl第11个外显子的突变。检测了15例病人样品,发现其中14例有基因突变。在20个对照样品中没有假阳性结果出现。研究者所用高密度DNA芯片包含96600种20mer寡核苷酸探针。探针以绿色荧光标记,目的基因转录产物即靶分子标记红色荧光,完全杂交的分子产生黄色荧光信号。

  结果显示携带BRCAl突变基因的杂合子来源的靶分子能与两种探针杂交,说明杂合子中包含了野生型及突变型两种基因。Affymetrix公司把P53基因全长序列和已知突变的探针集成在芯片上,制成P53基因芯片,将在癌症早期诊断中发挥作用。

  又如,Heller等构建了96个基因的cDNA微阵列,用于检测分析风湿性关节炎(RA)相关基因,以探讨DNA芯片在感染性疾病诊断方面的应用。目前,多种诊断芯片包括结核杆菌耐药性检测芯片、肝炎病毒检测芯片已逐步进入市场,基因诊断是基因芯片中最具有商业化价值的应用。

  7.4.4 药物筛选

  如何分离和鉴定药的有效成分是目前中药产业和传统的西药开发遇到的重大问题,基因芯片是解决这一问题的有效手段,它能够大规模地筛选、通用性强,能够从基因水平解释药物的作用机理,即可以利用基因芯片分析用药前后机体的不同组织、器官基因表达的差异。如果再以cDNA表达文库得到的肽库来制作肽芯片,则可以从众多的药物成分中筛选到起作用的部分物质。

  利用RNA、单链DNA有很大的柔性,能形成复杂的空间结构,更有利于与靶分子相结合的特点,可将核酸库中的RNA或单链DNA固定在芯片上,然后与靶蛋白结合,形成蛋白质-RNA或蛋白质-DNA复合物,可以筛选特异的药物蛋白或核酸,因此,芯片技术和RNA库的结合在药物筛选中有广泛应用。

  §7.5 数据处理和分析

  7.5.1 数据处理 7.5.1.1丢失数据和极端值的处理

  丢失数据(missing data)和极端值(outlier)是微阵列实验中数据质量控制(quality control )的两个基本问题。数据丢失的原因很多,包括分辨率不够、图像失败或只是由于芯片上的灰尘或划痕所引起。数据丢失还可能由于自动化方法中的系统误差产生。多数情况下,丢失的数据是这些不同原因相混合,不存在哪种占主要的问题。

  cDNA微阵列中数据丢失的含义是由于空点(empty spot),其荧光强度为零,或者由于其背景强度高于样品点。 Affymetrix微阵列丢失数据是指原始数据中错配值(MM)高于全配值(PM)。这些可疑资料通常是经过手工方法剔除,不用做分析。但在某些情况下,剔除丢失数据可能给数据分析带来困难,并引起重要信息的缺失。

  因此,最好将丢失数据进行替换。最简单的数据替换方法是根据同一芯片上其他点的情况进行统计分析而得到一个预计值。对于双色cDNA微阵列,如果某个基因有重复点,这些点的平均值可用来代替丢失数据。如果没有重复点,可用统计方法预测丢失数据(如EM算法)。一种简易方法是计算该样品点用不同染料标记时在整个芯片强度的分布位置,并以此为参照,推算出相应位置上的丢失值而加以替换。

  极端数据是指那些偏离群体的数据。微阵列实验中,极端值的出现和消除可在不同水平。极端值可在一块芯片上出现,但重复片子上不出现;也可以是同一片子上某个基因的重复点,而不管这些重复点邻近与否;还可以是同一片子上任意点所产生的偏离。

  现有微阵列技术中,多种因素可导致不同芯片间的变异性。已有不同方法减少这些芯片间的变异和系统误差(如下文将要叙述的正态化)。同一类型的芯片中,那些变异性大的片子应当去除,这种片子又称极端片子(outlier slide)。片间变异可能由于点样浓度和体积、加到芯片上的标记靶分子数目、杂交条件和其他因素等所引起。最简单的去除极端片子的方法是靠视觉观察图像。一种简单而有效的消除方法是通过提高实验自动化程度而消除。

  另一种去除极端片子的方法是如前面实验设计中讨论的那样,进行重复性实验,并用统计方法评估片间变异。重复片子上对应的基因可得到相关系数。这种方法中,至少需要3次重复才能评估芯片质量和剔除极端片子。所用的方法是计算两两配对(pairwise)相关系数。这时,需要设置一个相关系数界值,依实验设计而定,但通常必须大于0.9。通过两两配对,分别得到各相关系数值。

  通常情况下,相关系数都比较高且差别不大。如果两个相关系数值远远低于另外一个,常表明存在极端片子。如果所有相关系数都很低,表示微阵列的质量差,这不是极端值的范畴,而需要重新设计和制作芯片。

  同一芯片上也可出现极端值。在缺乏重复点的情况下,最高和最低的数值通常被当做极端值处理而加以剔除。阈值的设置可以根据百分位值(如最低数值点或最高数值点的0.5%)或那些偏离整个片子的分布中一定数量的标准差范围(如±3σ)。剩余的资料重新计算均数和标准差。

  这个过程不断重复,直到没有发现极端值为止。这种方法主要根据统计学原理,有一定的局限性。从生物学角度来看,某些基因的表达可能极高或极低,而且意义很大,特别是那些高表达的基因。在有重复点的情况下,极端值的挑选主要根据重复性的相似情况。如果某个重复点偏离该基因所有重复点平均数几个标准差范围,这个点即被当做极端值,需要去除或替换。

  7.5.1.2数据的正态性和线性检查

  正态性(normality)是指所分析数据是否符合正态分布,而线性(linearity)是指两组样品的散点图中,其数据相关性呈线性。在数据分析前后都必须检查数据的正态性和线性,这是由于微阵列数据分析所用统计方法中基本都假定数据呈正态分布。如果数据不呈正态分布,而是向一侧偏移,这些统计方法所得结果将不可靠,除非选用不依赖正态分布的非参数统计方法。微阵列数据通常向右歪斜,这是因为许多基因表现为中度或低度表达。

  数据的线性检查有助于正态化方法的选用。线性相关资料可用整体正态化方法,非线性相关资料则采用局部正态化方法。同时,线性检查也可提供数据可靠性的信息。检查线性最简单的方法是作散点图(scatter plot)。如果数据呈线性,点的分布应符合直线性。

  7.5.2数据分析

  微阵列合适的数据分析方法取决于实验设计和研究目的。微阵列通常用于发现基因、阐明代谢途径和进行分子分类。要回答这些问题,需要综合考虑多个方面。实验条件可以有多种,如不同时相观察。这些条件可以相对独立,也可有某种联系,甚至是多种实验变量的组合。为了反映这些多样性,已有一些常用的方法用做鉴定这些变化的显著性或基因表达模式的识别。

  这主要包括监测两个或多个样品基因表达水平比值的表达差异性(differential expression),减少维数并进行归类的主成分分析(principle component analysis),以及用做类型发现(class discovery)和类型预测(class prediction)的聚类分析(clustering)和分类分析( classification)。以下将主要介绍目前常用的差异表达分析和聚类分析。

  7.5.2.1 差异表达分析

  用于检测基因表达水平的DNA微阵列实验的应用之一是比较实验,其目的是比较两个条件下的基因表达差异,从中识别出与条件相关的特异性基因。何谓显著表达差异?它通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。例如,与正常组织相比,肿瘤组织中相对高表达的基因。

  微阵列技术的早期应用中(目前还在应用),研究差异表达基因的方法是将相同组织来源的两种样品(如癌症和正常)经不同标记,混合后与同一芯片杂交。筛选的标准通常定义为1.8-2.0倍。其比值超过这个界值时被认为是差异表达。如果使用重复点,出现一个以上的重复点的表达比值超过阈值,这个基因可被认为是差异表达基因。

  常用的分析方法有3类,第一类称之为倍数分析,计算每一个基因在两个条件下的Ratio值,若大于给定阈值,则为表达差异显著的基因;第二类方法采用统计分析中的t检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显著性;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显著性,例如贝叶斯方法。

  倍数变化分析方法具有明显的局限性,这是因为缺乏基因表达变化数据的可靠性和界值的选择标准。从生物学角度看,基因表达变化的程度并不一定表示会产生生物学后果。而两种不同组织或状态下,一种仅表现为20%变化量的基因可能较同样组织中变化量超过2倍或更高倍数的基因更具生物学意义。例如,信号传导途径中,任何细小的基因表达量的变化可产生明显的生物学结果。

  即使通过统计分析得到的差异表达基因,也会出现同样的争议。另外,低表达基因的荧光强度更易受到其他因素如背景噪音的影响,因此低丰度基因所受影响较高丰度基因大,需要一个更大的界值才能筛选出受调节的基因。

  筛选差异表达基因更可靠的方法是利用统计学原理,特别是有重复芯片或基因点时。仅有为数不多的统计处理方法可用来进行微阵列的数据分析。差异表达基因的统计检验方法通常是比较两组或多组均数的差异。如果仅有两组,可用t检验;两组以上则常用方差分析(ANOVA),两者的假设都必须符合正态分布。

  差异表达统计分析时,需要决定选用单侧检验还是双侧检验。通常分3种情形: ① 研究组(如肿瘤)较对照组表达高; ② 研究组较对照组表达低; ③ 研究组和对照组的表达可高可低。前两种情况选择单侧检验,最后一种情况选择双侧检验。另一需要考虑的问题是界值α( I类错误)的设定,通常选择0.05。由于微阵列上有成千上万个基因,尽管I类错误的比例较小,但假阳性的基因数目不可低估。

  如10000个基因的芯片,将有500个基因的表达 为假阳性结果。这种错误率显然与样品大小有关。基于这种分析,很难避免实验水平上的误差,这可以根据下面的计算进一步说明问题。

  如果选择显著性水平为0.05,每个基因不出错的概率为: Pgene(正确)=1-P=1-0.05=0.95 因此,如果观察500个基因,实验水平上不出错的概率为: Pexp(正确)=(1-P)500=(1-0.05)500= 0.95500=7.275E-12 这样,实验水平引起错误的概率是: Pexp(错误)=1-(1-P)500=1-7.275E-12 ≈1

  就是说,含500个基因的微阵列将不可避免地出现错误,更不用说含有上千或上万个基因的情况。因此,多重比较时常需要进行校正,以降低总的实验水平的I类错误的概率,即在基因水平发生至少一个错误的概率。校正方法中常用的有Sdák校正法、Bonferroni校正法,以及假发现率控制法(false discovery rate controlling )和置换校正法(permutation correction)。

  7.5.2.2 主成分分析(PCA)

  数据集中,一些数据并不能增加有用的信息量,而只是混淆数据,这时需要减少数据的维数(dimension)。微阵列的数据集通常非常大,含有上万个基因,以及很多次不同实验的结果。每个基因以及每个实验就可当做一维。减少维数的方法有多种,主成分分析(PCA )是最常用的一种。

  计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的m个观察值,形成一个n×m的数据矩阵,n通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物的主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA就是这样一种分析方法。

  PCA的目标是寻找r(r

  例如,将多个时间点、多个实验条件下的基因表达谱数据(N维)表示为3维空间中的一个点,即将数据的维数从RN降到R3。

  在进行基因表达数据分析时,一个重要问题是确定每个实验数据是否是独立的,如果每次实验数据之间不是独立的,则会影响基因表达数据分析结果的准确性。对于利用基因芯片所检测到的基因表达数据,如果用PCA方法进行分析,可以将各个基因作为变量,也可以将实验条件作为变量。

  当将基因作为变量时,通过分析确定一组“主要基因元素”,它们能够很好地说明基因的特征,解释实验现象;当将实验条件作为变量时,通过分析确定一组“主要实验因素”,它们能够很好地刻画实验条件的特征,解释基因的行为。

  7.5.2.3聚类分析

  基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度讲,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其他组中的成员不同。从生物学的角度讲,聚类分析方法所隐含的生物学意义或基本假设是组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其他蛋白质有磷酸化作用),不一定共享相似的转录模式。

  相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而预测未知基因的功能。

  聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。

  聚类分析并不是新建立起来的方法,在基因表达数据分析方面,层次式聚类、K均值、自组织映射神经网络在应用中是常用的方法。微阵列实验中聚类的基本概念是将相似表达的基因归成同一种类型,然后观察该类型的生物学意义。聚类分析方法本身不难理解,难的是如何理解其生物学意义。

  层次聚类法,在统计分析中也称为系统聚类法,其原理和算法与第6章所介绍的系统发生树连锁构建方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。许多聚类算法并不是直接基于原始数据的考虑,而是利用对象之间的距离(或相似性)阵列进行归类。

  因此微阵列数据分析中首要的也是最关键的步骤是选择合适的距离来量化已获得基因间生物学上的相似性。有许多种距离测量方法,包括Euclidean距离、Euclidean距离平方、标准化Euclidean距离、线性相关距离和Manhattan距离等。微阵列数据分析中常用Euclidean距离和线性相关距离。

  Euclidean距离独立处理各坐标并尽量使各矢量坐标间的差异最小。对于下列两基因X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),Euclidean距离d(X,Y)的计算方法是:

  举个简单的例子来说明Euclidean距离的计算方法,如X=(3,4)和Y=(0,0),则:

  对于同样的两个基因X和Y,线性相关距离的计算方法是:

  其中Rx,y,是指矢量X和Y(这里是基因X和Y)的Pearson相关系数:

  Pearson相关系数Rx,y,的数值位于-1和+1之间,因此线性相关距离总是位于0和2之间。

  以上两种距离计算方法中,有时得到完全不同的结果,试看下面的例子,分析3个基因5次不同实验的结果: g1=(2,3,5,6,8) g2=(100,200,500,600,700) g3=(10,8,6,4,2)

  Euclidean距离的计算结果分别为: DE(1,2)=1060 DE(1,3)=11.4 DE(2,3)=1063

  而线性相关距离的计算结果为: R1,2=0.98 DR(1,2)=1-0.98=0.02 R1,3=-0.99 DR(1,3)=1-(-0.99)=1.99 R2,3=-0.98 DR(2,3)=1-(-0.98)=1.98

  以上计算结果中,根据Euclidean距离结果,g1和g3应归为一类,而线性相关距离结果中,则应将g1和g2归为一类。自然而然的一个问题是,哪种方法最好?或者说什么情况下适合使用哪种方法?尽管已尝试的许多种距离测定方法在聚类分析时都得到比较好的结果,但没有明确的标准来根据不同的分析类型确定距离测定方法。最终还是需要从生物学角度来评估。

  通常认为,两个基因或两个实验之间的距离取决于所得到的原始数据是相对值(如比值)还是绝对值。但无论是相对值还是绝对值,样品(或实验)聚类中所计算得到的Euclidean距离是相同的,而基因聚类的结果则有所不同。线性相关距离则相反,基因聚类 的结果相同,但样品聚类的计算结果有所不同。

  距离除了用于上述聚类外,它还可以进一步用于聚类算法,如层次聚类(hierarchical clustering)和K-均值聚类(k-means clustering),即丛间距离(inter-cluster distance)的计算,包括单一连锁(single linkage)、完全连锁(complete linkage)、质心连锁(centroid linkage) 和平均连锁(average linkage)等方法。单一连锁,又称最小连锁,是计算不同丛的对象之间的最小距离。

  完全连锁,又称最大连锁,即计算所比较的丛中成员之间的最大距离。质心连锁计算两丛中心之间的距离。平均连锁是指两丛的各成员的平均距离。

  层次聚类是从单丛开始反复合并两个最近的丛或者从整套资料开始反复拆分各丛。前 者称为由底到顶或汇聚方法(agglomerative),不断将小丛汇入大丛。后者被称为由顶到底或分割法,将大丛不断拆分为小丛。汇聚方法相对简单,先按两两配对计算各丛间距离,然后将两个距离最近者合并,接着计算其他各丛与新合并丛间的距离,再将距离最近者合并,不断重复上述过程,直到不能将所有的丛被合并到一个大丛为止。

  其基本过程总结如下。 (1) 将每个基因归到自己所在的丛; (2)找出最近的丛加以合并为一个新丛; (3)比较新丛与其他丛间的距离; (4) 重复步骤(2)和(3)。

  基于分配(partition)原理的方法与等级聚类法不同。这种方法试图将数据分成不同的组,如K-均值聚类法。与等级聚类法不同的是,K-均值聚类法没有预先归好的丛,而是以用户自己定义的K丛作为输入参数。接着程序随机选择K个点作为各丛的中心,运算各种可能的模式,然后计算出该中心到其他各丛中心的距离。每个模式与最接近的丛相关联。

  其过程总结如下: (1)基因被人为地区分为K个质心, 计算各质心的位置; (2)每个基因按最小距离被归类到其 中某个丛; (3)重新计算各质心的位置; (4)重复步骤(2)和(3)。

  K-均值聚类法具有一些特点。首先,各模式成员与各丛的关系在后续计算中可发生改变,而不像等级聚类那样保持不变。其次,如果某个质心设定值偏离太远,该丛中可能没有成员。再次,由于初设质心的不同,K-均值法不一定会得到同样的结果。因此,有必要随机选择几组质心,重复上述过程,比较结果是否具有可比性。

  在讨论聚类分析的最后,有必要指出的是,不能高估聚类分析的价值。首先,得到一个丛或树状图通常难以回答所涉及的生物学问题。尽管聚类分析可用于类型发现,但通常对于类型比较和类型预测其效力不够。其次,由于基因表达谱涉及数千个基因,所用的算法也有别,测定的距离值也有不同,因此聚类分析是相对主观性的。

  再次,聚类分析不能提供统计学上有关不同类别中基因表达差异的真实的定量信息。最后,聚类图只是提供一种拓扑结构信息,某个丛中基因的次序和各丛的排列顺序并不代表有用的信息。通常聚类分析只是为某种决策提供支持性的工具,而不是决策性的。

  以上所述的层次聚类和K-均值聚类分析从机器学习(machine learning)的角度都属于未监测(unsupervised)类型,即其分类预先未知。如果在对不同类型标本进行微阵列分析时,则按已有分类即监测下(supervised )进行判别分析(discriminant analysis或classification ),这在建立类型预测器时很重要。常用的方法有权重投票(weighted voting),K-近邻法(K-nearest neighbors)、支持向量机器(support vector machine,SVM)等。

注意:本内容由网友上传,仅供学习交流使用,严禁临床等其它用途,否则后果自负。
邮箱
昵称
密码
确认密码
-->