基于二代测序技术的基因检测已逐渐成为临床诊断遗传性疾病的重要工具。与传统的基因检测方法相比,二代测序的检测流程更为复杂,因此对规范化有更高的要求。只有实现规范化的实验室操作和数据分析,才能更有效地解决临床问题,减少医患矛盾,促进行业的良性发展。
二代测序的检测流程分为"湿实验"(实验室操作)和"干实验"(生物信息学分析和数据解读报告)两个部分。"干实验"是二代测序非常重要的环节。实验人员对样品进行处理和上机测序,产生大量的序列数据,之后利用生物信息学软件,将这些序列信息转化为可靠的变异信息,再对变异的致病性进行判读,方能完成一份样品的检测。"干实验"环节与"湿实验"同样重要,但流程更为抽象,体现为数据在不同操作步骤间的流动,不同的参数设置和计算逻辑可能由同一套测序数据产生不同的结果,因此更需要建立标准化的操作流程,并在行业内形成共识,以促进遗传病高通量测序分析的规范化和标准化。
生物信息学分析是将测序获得的碱基序列转换为遗传学语言的过程,由生物信息学工程师编写相关模块并组合搭建流程。遗传病基因检测的生物信息学分析流程主要包括数据过滤、序列比对、变异检测、变异注释和相关质控统计等步骤(图1)。二代测序技术离不开生物信息学分析,而生物信息学的发展又推动了二代测序技术的临床应用。在充分评估的前提下,各实验室可采取不同的软件组合进行分析,常用的信息分析流程及使用的主要软件/程序见表1。
常用信息分析流程软件/程序
常用信息分析流程软件/程序
步骤 | 软件/程序(部分) | 输出结果 |
---|---|---|
质量控制 | SOAPnuke | 过滤低质量+接头污染 |
Trimgalore | ||
Cutadapt | ||
Trimmomatic | ||
Adapterremoval | ||
Flexbar | ||
序列比对 | BWA | 建立索引后的BAM文件 |
Bowtie2 | ||
SOAP2 | ||
SAMtools | ||
Novoalign | ||
Maq | ||
变异检测 | SNV&Indel检测 | 突变集(VCF格式) |
GATK | ||
Sentieon | ||
Varscan2 | ||
Mutec2 | ||
FreeBayes | ||
拷贝数变异(Copy number variant, CNV)检测 | CNV | |
CNVkit | ||
XHMM | ||
CNVnator | ||
Exomdepth | ||
CONTRA | ||
结构变异(Structure variant,SV)检测 | 结构变异 | |
CREST | ||
Lumpy | ||
Manta | ||
Breakdancer | ||
novoBreak | ||
数据注释 | ANNOVAR | 突变位点详细信息及变异对基因的影响等信息 |
VEP | ||
SnpEff |
注:生物信息学软件更新很快,表中仅列出部分常用软件,实验室也可自建流程
生物信息学分析流程通常是从测序源文件BCL转化好的FASTQ开始,在FASTQ文件中,每条读句都包含4行,每条读句的每个碱基都有对应的质量值,需根据质量值对数据进行过滤。针对遗传性疾病检测的质控过滤条件建议设置为:
(1)滤除判读为N的碱基占比达到10%或以上的读句;
(2)滤除质量值低于5的碱基占比达到50%的读句;
(3)滤除整条序列碱基平均质量值低于10的读句;
(4)截取或去除含有接头序列的读句。
序列比对是将数据过滤后保留下来的合格读句通过软件定位至基因组相应位置的过程。针对短序列常用的比对软件有BWA[1]、SOAPaligner(http://soap.genomics.org.cn),参考序列可选择GRCh37或GRCh38。根据平台的性质及应用,有不同的测序模式和测序读长,会产生双端测序和单端测序数据,常见测序读长可能从35bp到150bp,随着测序技术的发展,读长还会不断增加提高二代测序数据对变异检测的性能。不同的测序读长需通过充分测评选择比对流程,以获得最佳的效果。对于70 bp以下的读长,可采用BWA-backtrack策略,对于70 bp或以上的读长,则应采用BWA-MEM策略,需根据实际情况充分评估评检测的性能,选择适用的软件。
序列比对的输出结果最常见的存储格式为BAM/SAM文件以及较新的压缩格式CRAM及其加密压缩格式SECRAM[2]。SAM是BAM的非压缩格式,易于文本操作。BAM是目前基因数据分析最常用的比对数据存储格式。BAM文件中包含每一条读句的比对信息。比对完成后,需去除重复的读句,以免影响下一步的分析和测序评价指标的统计。为减少测序仪所造成的系统性错误,建议进行碱基校正步骤,可参考GATK的BQSR部分(http://software.broadinstitute.org/gatk/)。
数据分析流程必须包含测序数据质控计算的步骤,需根据比对文件计算目标区域的覆盖度、平均深度、重复序列比例、比对到目标区域的读句比例、目标区域每个碱基的测序深度等指标来评价测序的质量。基于探针捕获的测序数据还需要计算捕获效率(质控分析基本信息见表2),这一步的分析流程多为实验室自主编写。测序数据质量将直接影响检测结果的准确性。各实验室需要针对每套检测流程统计各测序指标的正常波动范围,确定质控阈值并严格执行。测序指标中最重要的评价指标为Q30、覆盖度和均一性,建议计算1×、4×、10×、20×和30×覆盖度来评估测序效果,同时至少计算平均深度的20%的覆盖度来衡量均一性。还可以计算变异系数(coefficient of variation,CV)来反应数据均一性,CV值越小,均一性越高。除目标区域的整体参数外,还需要分基因或分目标区域计算覆盖度,需输出基因覆盖度数据供查询,建议输出平均测序深度<1和平均测序深度<5的目标区域及其对应的基因和外显子编号列表,以告知在这些区域未被很好覆盖,可能漏过这些区域的突变情况。应使用足够量的实际样品对测序覆盖度进行评估,在所有测试样品中均无法被覆盖的区域为非覆盖区,应从检测范围中去除。
测序数据质控项示例
测序数据质控项示例
说明 | 质控要求 | |
---|---|---|
样品编号 | 样品识别码 | - |
原始数据量 | 下机数据量 | 因检测项目而异 |
目标区域长度 | 检测区间大小 | 因检测项目而异 |
去dup平均深度 | 去除dup后检测区间每个碱基被读句覆盖的平均次数 | 根据项目需求确定 |
1×覆盖度 | 检测区间被读句覆盖1次的区域所占比例 | >99% |
4×覆盖度 | 检测区间被读句覆盖4次的区域所占比例 | 根据项目需求确定 |
10×覆盖度 | 检测区间被读句覆盖10次的区域所占比例 | 根据项目需求确定 |
20×覆盖度 | 检测区间被读句覆盖20次的区域所占比例 | 根据项目需求确定 |
30×覆盖度 | 检测区间被读句覆盖30次的区域所占比例 | 根据项目需求确定 |
20%×平均深度覆盖度 | 检测区间被读句覆盖到平均深度的20%的区域所占比例 | > 90% |
Q20合格率 | 测序错误率为1/100的碱基比例 | > 90% |
Q30合格率 | 测序错误率为1/1000的碱基比例 | > 80% |
GC含量 | 测序数据中碱基G和C占总碱基的比例 | 全基因组测序数据< 45% |
靶向测序因检测项目而异 | ||
捕获效率* | 对于目标区域捕获项目,能够比对到目标区间的读句占所有读句的比例 | 根据捕获芯片特性确定 |
比对率 | 可以比对到目标区域的读句的比例 | 因检测项目而异 |
重复率 | 所有数据中完全重复的读句的比例 | 因检测项目而异 |
*:捕获效率为基于目标区域捕获项目的参数,WGS不适用
二代测序数据中存在序列完全相同的读句,称为重复序列。测序深度越大,越容易产生一定程度的重复。这部分重复读句所占比例需要进行统计,需要去除后再进行下一步分析。
各实验室需针对测序数据质量建立自己的标准。质量标准一旦建立,临床实验室在所有的检测过程中均需在此条件下进行,在下一个质量标准建立之前不得随意改变。在测序数据质量无法达到质量标准的情况下,需制定针对不达标指标的处理和改进方案,并对不达标情况及处理进行记录备案。
变异检测分为两大类,一类是单碱基变异(single nucleotide variant,SNV)和小插入缺失变异(insertion and deletion,INDEL);另一类是染色体水平的结构变异(structure variant,SV),其中拷贝数变异(copy number variation,CNV)指较大片段的重复或缺失变异,而SV一般指除CNV以外的结构变异如序列倒位、易位等。常用于检测SNV和INDEL的软件是GATK(http://software.broadinstitute.org/gatk/)和SMAtools(http://samtools.sorceforge.net/)等。由于检测策略的差异,不同软件的检测结果往往存在一定的差别,相同软件不同的参数设置同样会导致检测结果的差异。
检测CNV和SV可根据实际应用目的采取不同的流程,目前常用的检测策略包括基于深度差别、断点检测、基于PE关系的读句距离统计和重组装策略,对于高深度测序还可以通过计算SNP的支持读句比例来检测CNV。常用的检测软件包括CNVkit[3]、XHMM[4]、CNVnator[5]等,检测SV的软件包括LUMPY[6]、BreakDancer[7]等。实验室需深入了解所采用的CNV分析流程的原理,对于基于测序深度比较原理的CNV检测流程,应尽可能使用同批次同试验建库方案的对照样本做分析,性染色体的CNV需要用同性别的对照样本做分析。若无同批次数据可供使用,则需选择同一实验体系(如捕获芯片、建库试剂等)的检测数据作为对照样品。建议通过CV值监测每批测序数据的覆盖均一性。如果覆盖均一性分布与性能确认时差异较大,或未达到设定要求,则提示检测结果存在异常,也降低了结果的可靠性,需排查原因。此外,针对基于二代测序数据检出的CNV或SV结果,建议结合实际情况使用其他检测技术如array CGH、MLPA、qPCR和FISH等对与表型关联变异进行验证,实验室与临床需要共同探讨报告披露及结果的验证方案。
变异注释是根据变异基因所在基因组坐标范围对变异位点关联具体的变异名称、变异类型和可供下一步变异致病性解读参考的信息的过程。可使用开源软件或自主开发的流程对变异进行注释,较常用的注释软件有ANNOVAR[8]等。注释流程应包括变异基本信息、基因相关的疾病信息、正常人群频率、疾病数据库收录情况、软件预测结果等基本内容。人群频率数据库需包括常见的公用数据库,如千人基因组(http://browser.1000genomes.org)、dbSNP(http://www.ncbi.nlm.nih.gov/snp)、ExAC(http://exac.broadinstitute.org/)、gnomAD(https://gnomad.broadinstitute.org)等。同时各实验室可集合自主构建的本地频率库,使用频率对特异性的高频突变和遗传背景相似人群的高频突变进行筛选。注释变异需参考HGVS最新命名规则(http://www.hgvs.org/mutnomen/),转录本选择建议优先使用结合ClinVar(https://www.ncbi.nlm.nih.gov/clinvar)、HGMD[9]和RefSeq(https://www.ncbi.nlm.nih.gov/refseq/)数据库中记录的候选转录本。对于存在多个转录本的基因,需谨慎选择有生物学意义或经研究确认与疾病相关的转录本,可参考美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)和EMBI-EBI的Matched Annotation from NCBI and EMBL-EBI(MANE)项目和A Locus Reference Genomic(LRG)(https://www.lrg-sequence.org/)推荐的转录本。
原则上不同实验室可以使用不同的软件/程序完成数据分析流程,但需要对开源或自己开发的分析软件进行性能确认,确认其可靠性和准确性,并且测试参数、环境和实际应用要保持一致。验证时需针对样本类型(外周血、组织、唾液等)或检测变异类型分别测试其敏感性,特异性和重复性,验证报告及原始记录应可供查询。建议用标准样本(如GIAB的NA12878细胞株)和已知检测结果的阳性样品对生信分析流程进行性能确认。生信分析流程所采用的软件版本、参数、数据库版本、过滤条件等均需以样本为单位进行详细记录,做到可追溯。生信分析流程中应包含至少两种样本唯一识别码,减少多步骤分析可能出现的样本混淆等。生信分析流程需确保被检测者健康信息的安全,并遵守各项法律和监管规定。当生信分析流程版本更新或修改后,需重新对修改后的分析流程进行全面的测试和验证,并记录结果,符合要求后方可对生产环境进行更新,并对过程进行记录。
二代测序检测会产生大量的数据。一份样品的部分基因的靶向测序(panel)数据文件数据量即可达若干Gb,全外显子组测序数据文件数据量可超过10 Gb,全基因组测序数据文件数据量可达上百Gb。如何保存这些数据已成为整个行业需要考虑的问题。
受检者的基因检测数据可包含患者的个体特征和可识别信息,原则上所有基因检测结果均属于受检者的隐私。未经受检者同意,不得公开患者的检测信息。受检人要求删除其样品来源数据时,应予以删除。
二代测序会产生多个文件,包括原始测序数据FASTQ文件、比对产生的BAM文件、检测变异后的VCF文件和最终的结果报告单,建议将这些文件都进行一段时间的保存以方便数据回顾和重分析。FASTQ文件和BAM文件可以重新分析,但较大;VCF文件相对较小,虽不可重头进行分析,但包含所有的变异信息。目前国内对数据的保留时间没有强制性规定。美国医学遗传学与基因组学学会(American College of Medical Genetics and Genomics,ACMGG)指南建议FASTQ和BAM文件按照CLIA要求最少保存2年以上,VCF文件和最终的结果报告单建议永久或尽可能长期保存。各实验室可参考美国的指南,视情况在标准作业程序(Standard Operation Procedure,SOP)中明确保存文件类型和周期,建议FASTQ和BAM文件最少保留2年以上,同时需在检测前咨询和知情同意中明确告知受检者保存的时间,在保存期间按医师及患者的需求进行释放或重分析。
数据文件可以在本地或云端保存。数据的传输和存储建议使用校验和(checksum)对文件的完整度进行追踪,例如MD5算法。推荐采用工业化压缩软件压缩保存原始数据,并保存MD5信息,尽量通过工业标准的阿里云、华为云等云端进行交付。
遗传分析的输入为信息分析注释数据,输出为报告,建议对展示在报告中的变异相关注释数据使用统一的规则。辅助临床诊断的基因检测,其遗传分析环节涉及变异初筛、表型匹配和变异致病性判读等3个步骤。因二代测序产生的变异多,遗传分析环节涉及较多的人工判断,因此各实验室需根据ACMGG指南[10]的原则编写数据解读的SOP,要求相关人员在充分的培训和考核后方可进行数据解读和报告出具。
二代测序会检出大量的变异。这些变异中的大部分是良性多态或与疾病无直接关联的变异,可结合疾病的发病率与待解读变异在正常对照人群中的频率、变异所引起的功能改变等参数过滤掉注释数据中的疑似良性/良性变异。美国ACMGG建议使用正常人群频率>常见的遗传病发病率制定默认筛选频率[如次等位基因频率(minor allele frequency,MAF)>1%][10]。自动化筛选流程的条件需进行保存。但需注意由于个体偏差和外显不全等因素,有些致病突变的人群频率较高,甚至在特定人群中频率超过5%。需通过数据库和文献检索[如参考ClinGen SVI针对BA1证据项使用发布的例外列表(https://clinicalgenome.org/site/assets/files/3460/ba1_exception_list_07_30_2018.pdf)]设置高频豁免数据库,以确保这些突变不会在变异初筛中被剔除。
针对患者的基因检测的首要诉求是找到分子水平的致病原因,因此需结合受检者的临床表型对样品进行分析和解读。在表型匹配环节,需将患者的表型与检测到的变异基因所致疾病的表型进行比对分析,因此需借助数据库和文献检索来完成。建议各实验室构建自主的基因-疾病-疾病表型数据库以提高表型匹配的效率,并标记数据的来源和数据库版本,以便于追溯和维护。需注意基因、疾病和疾病表型的关联并不是固定不变的,随着科研和临床的发展与进步会不断扩增更新,因此各实验室需注意进行最新研究进展,不断更新、优化和矫正自己的内部数据库。
表型匹配由于人工参与度高,已成为数据解读的限速环节,可借助自动化的表型匹配软件来提高效率。目前有多种软件可流程化实现表型匹配和关联,常用的表型匹配软件包括Phenolyzer[11]、Exomiser[12]、Xrare[13]及商业软件TGex(https://tgex.genecards.org/)等,也可使用自主开发的表型匹配软件进行辅助解读。这些软件能够根据患者的表型,将检出的突变按相关性进行排序,作为解读结果的参考,但并不能完全替代人工得出结论。在表型关联分析环节,建议临床与检验实验室建立协作机制,以便送检医师能够参与对候选变异位点表型吻合度的评估。同时为方便临床与实验室沟通,建议使用HPO(https://hpo.jax.org/)[14,15]词条和CHPO(http://www.chinahpo.org/)词条对患者的表型进行处理和存储,结构性标准化的表型-基因型样品库的建立也有利于历史数据的利用和挖掘。
根据2018年发表的《临床基因检测报告规范与基因检测行业共识探讨》[16]中的行业共识,位点致病性的解读需要参考ACMGG 2015年发表的位点致病性解读指南[17]。各实验室需对位点致病性的解读编写SOP,所有人员均需严格执行SOP对变异的致病性进行解读。须注意变异位点致病性解读的规则将随行业和技术的进步不断更新和完善,因此实验室需追踪最新的指南和行业共识,遵循ClinGen针对不同证据的细化建议以及特定类型基因和疾病的建议,不断更新和优化实验室的解读SOP并标注版本,以便于回溯管理。实验室数据的解读人员应组织年度培训,统一解读规则。
国家临检中心定期对二代测序结果的致病性解读进行培训,各实验室均应安排人员参加。鼓励实验室间分享SOP及位点筛选的逻辑,以便相互借鉴,形成行业标准。
判断位点致病性的证据有一些可以进行自动化分析(如人群频率、软件预测等),而有些只能通过人工阅读文献或验证实验获取,辅助解读软件可自动在ACMGG指南框架下对变异进行致病性判断(如InterVar[18]),但均需要人工进行校正,才可获取足够的证据项,得到准确的结论。实验室也可以自建流程,对ACMGG解读指南的部分证据项进行自动化提取,建议用数据库致病/良性位点进行校验,确认自动化证据项的可靠性,不断优化流程。在数据解读的过程中,人工参与环节的文献查询若提供了致病证据,需将所引用的文献证据附在文献列表中并作清楚标记。建议在报告中列出所有的用于致病性定级的详细证据描述及准确的数据来源。
应建立结构化的数据库存储和维护实验室已经解读过的变异位点,同时需注意随着研究和文献的更新及家系资料的补充,变异的致病性判断可能会发生改变。据统计,OMIM数据库平均每个月更新40~50个基因条目,可根据实验室条件,选择每季度到半年更新数据库,对阴性样品进行重分析,以提高诊断率。建议不同实验室致病性变异结果和证据项的互享以充分挖掘变异致病性分析的证据,对解读条款或结论有不同意见时,鼓励通过讨论及定期进行业内的培训等形式不断完善。
对于患者的高通量检测结果,需要通过家系传递分析来判断突变的来源,从而进一步确定变异的致病性。若父母子/女三人同时进行了核心家系(Trio)检测,且变异位点的测序质量和覆盖度均达标,并确认了亲子关系后,则不需要再进行Sanger测序分析,只需直接进行家系分析即可。
数据分析解读完成后,在正式出具报告之前,需要与临床医师(送检医师)再次进行沟通。主要内容可针对解读过程中临床表型的HPO/CHPO使用是否准确,是否有遗漏的表型需要补充,解读与临床对词条的理解及使用是否一致,解读结果是否能够充分解释受检者的病因,尤其是存在等位基因异质性的情况下,微小的表型差异可以起到鉴别诊断的作用,是否有可能对某些重点关注基因的解读有疏漏。此外,若涉及意外发现如何向受检者披露、是否在报告中呈现等问题,都需要与送检医师进行充分的沟通。
二代测序技术检测基因变异的能力较强,可检测多种变异类型,非常适用于遗传性疾病的分子诊断,尤其使表型不明确、不能获得明确的临床诊断的遗传性疾病能够从检测获得启发。与传统的针对性基因检测方法相比,二代测序的数据分析更为复杂。本文对二代测序应用于遗传病分子诊断的共识进行了探讨,对生物信息学分析、数据存储和数据解读提出了建议。随着技术的发展,新的生物信息学算法和流程的推出将使二代测序技术的应用范围不断扩大,准确性不断提高,而变异致病性解读的指南也会不断更新,需要鼓励同业机构之间加强交流,逐步实现数据、变异分类结果及依据的积累和分享,持续更新行业共识和指南,促进二代测序技术在遗传病诊断领域的应用和发展。
利益冲突 所有作者均声明不存在利益冲突