研究背景
结构变异(SVs)是指长度超过50bp的插入、缺失、倒位和移位的基因组序列重组,是构成人类序列的多样性的原因之一。每个个体所具有的SVs数量是少于SNPs和短序列变异(50bp)的,但是它们较大的变异幅度使得其可能具有重要的作用,对疾病有重大影响。
研究表明人类个体平均包含-个SVs。目前大部分研究对全基因组测序都是通过短读长测序方法(SRS)进行,这种方法的读取片段长度普遍在-bp,可对SNPs和短序列变异进行有效鉴别,但是这种方法对于SVs的识别是不利的,大多数研究中,短读长测序方法仅能鉴定出0-10个SVs。长读长测序方法的读取片段长度可达数千bp甚至是几Mb,可对SVs进行更准确的识别。传统的鉴别SVs的方法是通过与参考基因组进行比对组装,而LRS方法可以使得组装过程更加准确,同时LRS可以更大概率的覆盖SVs全长,尤其对SVs的断点和长度可进行更有效的识别。而LRS也具有一定的缺陷,其测序错误率相对较高(通常10%,受样品质量、测序技术和方法的影响),可能还会导致误差无法对SV进行有效识别,尤其是对基因组联合分析等规模化研究中可能会导致假阳性,影响后续分析。目前使用长读长测序方法对人类基因组SVs进行研究报道仅针对一些小数据集分析,规模化的研究尚未有报道。
冰岛deCODEgenetics使用纳米孔长读长测序技术对位冰岛人基因组进行分析,鉴定出位冰岛人人均有22,个SVs(包含13,个插入变异和9,个缺失变异)。研究中发现了一组包含,个可信的SV等位基因,并将这些等位基因在,个个体中进行研究,分析其对疾病和其他表型的影响。研究发现PCSK9的第一个外显子缺失的携带者中低密度脂蛋白水平较平均水平低0.93mmol/L。另外,ACAN基因的一个外显子中一个较长区域包含多个重复序列(长度为57bp的重复序列),包含了11个等位基因型,并且个体的身高与其携带的这一序列的重复数呈线性关系。这些结果表明,通过这种非特异性的全基因组测序,在一定规模群体数量的情况下可以对SVs进行准确的鉴别,同时对这些SVs与性状进行关联分析。
研究方法和结论
本文研究者首次报道了使用LRS对人类基因组SVs进行群体解析,并利用这些数据与疾病和其他性状进行了后续的关联分析。研究对象为个冰岛人,其中包含个三人亲子组合,DNA样本包括份全血样本和份心脏样本,测序使用OxfordNanoporeTechnologies的PromethION设备,例如SV过滤和启发式组装来提高SV分析的准确度以弥补长度长测序高错误率的缺陷,此外还开发了一个对LRS数据进行基因型联合分析的工具。
所有原始序列在个测序芯片上进行测定,读长序列的测序中长(N50)超过19,bp。参考人类基因组GRCh38组装后发现,LRS覆盖度中值为17.2X(10.0-94.3X),序列与参考基因组的碱基识别率中值为87.6%,错误率为11.6%(插入3.3%,缺失4.5%,错配3.8%)。
高置信度SV集通过四个步骤获得:发现、个体组装、基因分型和数据填充。SVs通过高敏识别,通过SRS数据进行断点预测优化,再经过原始数据验证以减少可能的响应和校正误差。通过每个个体获得的SVs分别根据人的LRS数据和00人的SRS数据进行组装和基因分型。最后将基因变异与,个SNP芯片化的冰岛人的广相单倍型进行重构,明确了一套基于精确拟合及其他多种筛查手段获得的高置信度的SVs数据。
1.SV分析流程
图1SV分析流程。(A)每个样本都经过basecalling及SVs发掘。SVs集通过所有个体数据融合而来,然后分别通过SRS和LRS数据对个体数据进行基因分型。基因分型后的突变型通过单倍型进行归类,SV筛选后的突变型被认可为可信突变型。(B)SV识别路径:Reads通过minimap2参考人类基因组GRCh38进行组装,随后通过Sniffles进行SV预测。预测的SVs通过alternatealleleratio进行预选,然后SV断点通过SRS数据和SViper进行优化。最终利用SquiggleSVFilter对候选SVs进行原始信号数据比对用于后续研究。
本研究中获得了,个规避了对相似位点类似长度进行二次计算的高置信SV等位基因,其中75,个插入,55,个缺失,另外个无法判定。研究者检测到的片段插入现象超过缺失,与常规SRS获得的结果相反。上述结果中,,个SV等位基因(63,个插入,49,个缺失,另外个无法判定)可以匹配到,冰岛人的单倍型。鉴定结果显示,每个个体SVs数中值为22,,平均值为20,,单倍体基因组中的组装长度中值为10.02Mb。与Audano通过LRS获得的SV数据集和gnomAD-SV通过SRS获得的SV数据集中HG的GiaBTier1区域的SV数据进行比较后,研究者评定他们的结果假阴性率分别为2.6%和3.4%,通过类似的方法,假阳性率分别确定为8.2%和6.3-7.6%,考虑到特定群体漂移的情况,这些评估结果可能有一点上浮。使用PCR方法对其中70个SVs进行验证,其中63个SVs验证正确的个数为60,假阳性4.8%,另有7个验证失败。
Audano与gnomAD-SV的数据对比表明,通过SRS获得的gnomAD-SV数据中的SVs存在41.3%的假阴性结果,研究者将其数据进行运算比对后获得的结果与之类似,假阴性为41.9%,输入46,条SV等位基因,条未包含,对串联重复(TR)区域内外的SV进行单独分析,gnomAD-SV的假阴性率分别为47.4%和27.4%。LRS还显著提高了SVs基因型分析,,个SV等位基因中,只通过LRS或SRS获得的SV等位基因分别76,(64%)和(3.2%)个,此外TR区域内外的SV等位基因分别有74.2%和38.6%不能在SRS的结果中发现。以上结果表明LRS对于SV发掘和分型的准确度和可信度均超过SRS数据,尤其是突变率较高的TR区域内的SVs。
2.组装表征SV集
图2组装表征SV集。(A)组装SVs数量和分布。(N=;个个体数据通过SRS数据无法分型,6个分型不完全)(B)50bp~1kband1kb~10kb的SV长度分布堆叠图。插入突变被分类为RE、TD和INS。SVs在长度为bp、2.5kb和6kb时存在三个峰值,分别与SINE、SVA和LINE一致,尤其是RE的增长(N=,,13,个SVs无特殊结构未计入)。(C)每一染色体中控制端粒距离的TR和非TRSVs数目。(D)等位基因分布频率0.05%以上SV分布。(E)基因组SVs信息总览。(F)基因组中rareSVs比例。(E)和(F)中,数值代表均值,误差线为95%置信区间。(N=,,13,个SVs无特殊结构未纳入统计)
与前人结果类似,SVs的数量与长度呈反比。为方便分析,研究者将SVs分为三类,tandemduplications(TD)、retrotransposableelements(RE)和otherinsertions(INS),分别占比30%、7%和63%。研究者发现,受RE型SVs的影响,SVs在长度为bp、2.5kb和6kb时存在三个峰值,分别与SINE、SVA和LINE一致。研究者还发现染色体端粒区域,尤其是TR区域具有较多的SVs,这也反映了端粒区域的序列信息和TR区域更高的突变率。检测到的等位基因数随着等位基因频率上升而降低,40.1%的等位基因频率低于1%。一般来说频率可以反映个体年龄,年龄越大突变越多,因此,基因组SVs的相对等位基因频率可以为负选择强度提供参考。
研究者观察到与基因组平均水平相比,外显子与非编码调控区,如增强子和启动子,在SVs中比重较低而在rareSVs中的占比较大,同时TRs区域中的SVs比TRs区域外出现频率高,表明TRs区域具有更强的SVs承受能力。尽管调控元件中TRs区域内SVs少于TRs区域外SVs,但他们在