WGS(全基因组测序)技术在病毒研究领域的挑战与机遇
——摘自公众号“探普生物”
关键词:病毒全基因组测序、WGS、宏基因组/宏病毒组测序、PCR-全基因组测序、靶向测序
NGS(Next Generation Sequencing,二代测序)自面世以来,经数年发展,在人类、动植物、细菌等物种的遗传进化、转录调控、表观遗传等研究领域已经得到广泛应用,其样本处理和数据分析技术都日趋成熟,基于NGS数据及庞大的算法体系,生物医学相关领域近年来正在以曾经无法想象的速度进步。
然而,由于多种原因限制,NGS对于病毒研究者及临床从业者的助益远不如其他物种。病毒引起的疾病无论对人类还是经济动植物都是一个巨大的威胁。因此,病毒样本处理、数据分析、成本控制等方面的深入研究优化完善,对于人类科学及生物安全至关重要。
为什么要在临床实践和科研工作中对病毒进行测序?
在科学研究领域,小病毒基因组片段测序早已实现了广泛应用,常用的方法是sanger测序。基因组部分功能片段的测序对于下游的蛋白、功能研究都有很重要的指导意义,比如我们熟知的HIV/HBV/HCV以及流感病毒。
在临床上,病毒片段测序可应用于抗药性突变的检测,如HIV高活性抗逆转录病毒疗法(HAART)就在很大程度上依赖于病毒测序:HAART显著提高了HIV患者的生存率,但成功的治疗需要使用抗逆转录病毒药物长期抑制病毒复制。HIV具有非常高的突变率,在病毒复制过程中出现病毒抗体的变体。对编码重点蛋白的基因进行测序,以确定病毒复制所产生的具有抗性的突变。与标准治疗相比,测序抗性突变使得治疗更有针对性,病毒载量显着降低。因此,测序抗性突变以指导HIV治疗可改善疾病预后。
为什么要对病毒进行WGS测序?
如果只是检测有限数量的抗病毒抗性突变,WGS或许过于昂贵且工作量太大,此时应用NGS确实不太合理。然而,位于基因组中的基因的抗病毒药物数量在逐步增加,测序成本逐渐下降,使用序列数据的算法和工具日益完善,这些因素使得WGS成为病毒研究和临床诊疗中必要且现实的技术手段。
除了抗药基因筛选预测之外,WGS还可以用于识别疫病的爆发、传播等流行病学调查应用。全基因的序列分析所获得的信息要比部分基因结果更加全面。例如,对呼吸道合胞病毒(RSV)基因组进行测序表明,除了传统上用于基因分型的基因之外,存在其他可用于分型的变异。
为什么要对病毒进行深度测序?
利用大规模平行测序的方法通过分析,可获得在低频率下含有核苷酸变体或单倍型的宿主内或宿主之间的病毒群,这无疑给研究者提供了检查病原体多样性的机会。对于高突变频率的病毒,如HIV,同一个患者可能感染了许多密切相关的病毒,每种病毒具有少量微妙的不同变体,我们称其为准种。这些少数变体也可能改变病毒的临床表型,还可能导致其基因型和耐药性的变化。
病毒群体的Sanger测序可检测低至10%至40%突变频率的变体,而NGS可将那些相同的PCR扩增子测序获得更大的测序深度,并因此捕获更多低频突变。
利用PCR扩增子的深度测序对HIV抗药性进行的许多研究要求突变频率> 1%,以减少假阳性的可能性。这样级别的敏感性使得真正低频(0.1%-1%)的突变无法检测。
通过宏基因组方法对临床材料进行直接深度测序,为病原体序列的无偏检测提供了机会,从而为病毒和其他感染提供了初步诊断,为病原微生物培养,电子显微镜诊断和qPCR提供了替代方案。
为什么要在临床实践和科研工作中对病毒进行测序?
在科学研究领域,小病毒基因组片段测序早已实现了广泛应用,常用的方法是sanger测序。基因组部分功能片段的测序对于下游的蛋白、功能研究都有很重要的指导意义,比如我们熟知的HIV/HBV/HCV以及流感病毒。
在临床上,病毒片段测序可应用于抗药性突变的检测,如HIV高活性抗逆转录病毒疗法(HAART)就在很大程度上依赖于病毒测序:HAART显著提高了HIV患者的生存率,但成功的治疗需要使用抗逆转录病毒药物长期抑制病毒复制。HIV具有非常高的突变率,在病毒复制过程中出现病毒抗体的变体。对编码重点蛋白的基因进行测序,以确定病毒复制所产生的具有抗性的突变。与标准治疗相比,测序抗性突变使得治疗更有针对性,病毒载量显着降低。因此,测序抗性突变以指导HIV治疗可改善疾病预后。
宏基因组-超深度测序
使用宏基因组方法进行病原体发现或诊断,其核心是在生物信息学工具和数据库的辅助下,排除宿主和其他无关物种的污染并将序列锚定到与感染***相关的病原体物种。
宏基因组可以不需要借助引物和探针的辅助,在病毒群中测到病毒的序列。也就是说我们不需要提前知道病毒基因组的任何信息,就可以在样品中检出新病毒。这使得我们可以对突然爆发的未知原因的流行威胁事件作出快速反应。病毒宏基因组测序还可以提高提供病毒相关的癌症的演变信息,在此不作展开讨论。
探普注:宏的概念决定了数据量和物种丰富度不可能会小,宏基因组在病毒测序方向的应用***的瓶颈是生物信息学分析方法有限,数据无法获得有效利用,从数以亿计的背景reads里获得目标物种的序列并且完成后续分析确实困难重重。但是对于发现新病毒(无论是数据库意义的新,还是“我们不知道它是什么”意义的新),以及复杂/混合样品的处理和高突变物种的测序,宏基因组有不可比拟的优势。本文研究者的研究方向为靶向富集技术,因此对于宏基因组提及甚少,读者可结合实际客观辩证看待。
PCR扩增子富集
宏基因组方法的替代方案是在测序之前富集特定的病毒基因组。该技术***常见的方法就是在NGS测序之前,先用与已知核苷酸序列互补的引物PCR扩增数百至数千个碱基对的病毒基因组来富集小病毒基因组(如HIV和流感)。这种方法应用于公共卫生的***例子包括通过PCR-WGS对麻疹病毒、寨卡病毒、诺如病毒、诺瓦克病毒等进行测序。此外,基于PCR的深度测序技术,研究人员已经发表了多种流感(~13.5kb),登革热(~11kb)和HCV(9.6kb)等的全基因组。
重叠PCR结合NGS已用于较大病毒如HCMV、ASFV的全基因组测序,但这种重叠扩增子方法可扩展性有限,因为需要许多引物和且PCR反应需要更多DNA,临床样本很难具备这种条件。大量PCR反应需要相当大的实验室工作量,文库构建前样品汇合需要将不同PCR扩增子浓度提前标准化,引物错配可能导致反应失败,因此在临床环境中不太实用;特别是在变化很大的基因组中,多重PCR反应相关的劳动力和消耗品成本增加,也许光是优化引物和PCR反应就会消耗掉非常大人力物力。
因此,尽管基于PCR的病毒检测方法在理论上可能达到250 Kb,但基因组大小和技术复杂性及样品量需求之间的比例关系使得对病毒基因组测序的PCR测序超过20-50 Kb就已经相当困难,这一瓶颈特别是对于大型多样本研究或常规诊断更是无法逾越。
扩增高度可变的病原体如HCV和诺如病毒时,PCR也可能遇到问题,这些病毒存在许多不同的基因型,引物错配和引物无法结合的情况都极易发生。在这一点上,精心设计的简并引物可能有助于缓解这些问题,但新的突变体仍然存在检测和扩增的风险。
靶向富集技术
靶富集(TE)方法是病毒基因组PCR和宏基因组测序问题的一种解决方案。有许多研究团队一直在开发可用于直接从临床样品中对整个病毒基因组测序而无需事先培养或PCR的方法。这些方法通常会首先设计为与病原体参考序列互补的小RNA / DNA探针。
与基于特异性PCR扩增子的方法不同,探针靶向富集可使整个基因组被重叠探针所覆盖,这些探针用于杂交反应以捕获与其固相结合的互补DNA序列。用链霉抗生物素蛋白标记的磁珠从样品中富集靶向互补结合到的总核酸,经过接头连接和少量PCR循环即可上机测序。探针靶向富集已成功用于多种临床相关病毒,如HCV,HSV,VZV,EBV,CMV,HHV和HHV。在样品中直接富集,跳过了培养步骤,这意味着获得的序列比培养的病毒分离物更能代表原始病毒,还可以比PCR-NGS发现更低频的突变。
该方法的成功建立在目标病毒在数据库中可用参考序列的数量上:当针对更大参考序列组设计探针时,针对病毒种的捕获特异性增加,捕获到的同种病毒样品多样性也会增加。 TE探针设计允许模板和探针之间出现少量错配,但是与PCR不同的是,PCR仅需要知道靶区域的两端的区域,但TE需要知道内部序列以设计探针。因此TE不适合与已知病毒同源性低的新病毒,这种情况下宏基因组学或者使用简并引物的PCR可能更合适。
与所有方法一样,该技术也受到起始病毒载量的限制。有研究证明,TE能够测试低至2000 IU / ml(HCV)或2500 IU / ml(HCMV)的病毒载量的病毒,但是这种载量的样品的测序数据的覆盖深度会比较低。宏基因组学测序数据中病毒有效数据取决于样品中的起始病原体载量,而TE可以使靶向病毒读数的百分比从0.01%增加至80%或更多。
探普注:探针的设计由于需要数据库中有丰富多样的序列信息,因此对于未曾发表的、高度重组或变异的以及完全未知的病毒无能为力,且探针合成费用非常高昂,单次合成的反映次数越高,成本越低,所以探针法对于需要长期或者大量针对某种病毒进行测序的团队较适用。或许,对于高发、热门的病毒种类,如HIV/流感等,商业化的探针试剂盒值得期待。