通过研究全球基因组数据科学家重写人类遗传学的故事

《自然》和其他科学杂志上的一系列论文报道了人类庞基因组参考联合会的最新研究成果。目前的泛基因组参考文献草案将继续扩大，以包括来自其他各种祖先和地理根源的人的 DNA 测序和分析。最终，一个由 350 多名参与者组成的队列将使研究人员能够捕捉到最常见的基因变异，包括以前因映射到复杂区域而被遗漏的变异。

西雅图华盛顿大学医学院基因组科学教授、人类庞基因组参考联盟资深科学家之一埃文-艾希勒（Evan Eichler）说："泛基因组方法代表了人类遗传变异的一种新思路。它不仅有可能改善遗传疾病的发现，还有可能改变我们对物种遗传多样性的理解"。

通过反映人类群体的变异，庞基因组参考文献有望提高人类基因组研究的公平性。基于基因变异如何影响人类健康的知识，来自更广泛背景的个人和家庭可能会从新的临床进展中受益。

研究人员已经取得了以前的人类基因组参考序列不可能取得的发现。

项目总报告"人类泛基因组参考序列草案"发表在《自然》杂志上。艾希勒是人类基因组进化和变异及其与疾病关系方面的专家，也是资深作者之一。项目团队成员还包括该系的 David Porubsky、Mitchell Vollger、William T. Harvey、Katherine M. Munson、Carl A. Baker、Kendra Hoekzema、Jennifer Kordusky 和 Alexandra P. Lewis。

本文研究了 47 个个体的二倍体组合。二倍体组合显示了一个人从父母双方继承的DNA序列，而单倍体组合只显示父母一方的DNA序列。我们对这些组合进行了评估，以确定其覆盖范围、准确性和可靠性。结果发现，这些组合几乎是完整的（超过 99%），而且在结构和碱基对水平上高度准确。研究人员指出，由于采用了最先进的测序技术和创新的分析方法，这些组装结果在组装质量方面优于早期的工作。

除了确定已知变异外，组装还捕捉到了基因组结构复杂区域的新变异。这些区域以前是无法进入的。

作者还强调，目前的泛基因组参考文献仍是一个草案，在建立和完善这一参考文献方面仍面临许多挑战。

例如，科学家们计划推动端粒到端粒或尖端到尖端的染色体测序，以更全面地了解人类的差异。他们指出："这将更全面地反映人类的各种变异。研究人员还希望扩大研究对象的招募范围，因为目前的样本不足以反映人类的多样性程度。"

尽管存在这些限制和其他限制，研究人员预计优化庞基因组参考文献收集工作将迅速为科学家和临床医生带来大量应用。

由华盛顿大学医学研究人员领导的一项研究发表在《自然》杂志上，题为"人类节段性重复内突变和基因转换的增加"。论文的第一作者是米切尔-R-沃尔格（Mitchell R. Vollger），他是一名基因组科学博士后研究员，学生时代曾在艾希勒实验室与同事合作，也曾与其他人类庞基因组参考联盟的科学家合作。

通过克服以前在绘制含有大段重复DNA代码的基因组区域图谱时遇到的障碍，他们首次发现了许多区域在单核苷酸水平上的更多变异。这使他们对变异发生的方式、地点和程度有了更深入的了解。

他们发现，与基因组的独特区域相比，节段性重复区域内的单核苷酸变异密度更高。他们还发现，几乎四分之一的单核苷酸变异增加是由于基因复制到了新的位置，这一过程被称为"病灶间基因转换"。

科学家们绘制了一张热点地图，这些热点是捐赠或接收遗传物质的主要地点。他们还观察到，从进化的角度来看，片段复制区域比基因组中含有独特 DNA 序列的其他部分稍早一些。然而，这并不能解释单核苷酸变体密度增加的原因。

有趣的是，与腺嘌呤和胸腺嘧啶之间的转换相比，重复序列中的核苷酸胞嘧啶更有可能转换成鸟嘌呤，反之亦然。(A、T、C 和 G 是组成 DNA 密码字母表的四种化学物质）。研究人员报告说："与独特的DNA相比，这些不同的突变特性有助于维持DNA片段复制中较高的胞嘧啶和鸟嘌呤含量。"科学家们在人类基因组中这些重复和基因丰富的区域发现了 199 万多个单核苷酸变异，这些区域以前被认为是无法读取的。

Vollger说："这些新序列中有很多是去年[作为T2T联盟的一部分]在拷贝数可变区域中发现的，在这些区域中，人与人之间存在很多差异。我最近的工作重点是研究这些可变区域，发现那里存在的额外多样性，并开始描述其特征。根据你选择的计算方式，人类的大多数变异都来自这些拷贝数可变区，而只有使用泛基因组参考文献才能解开这些拷贝数可变区。我认为，我们必须继续推动pangenome资源，使科学和临床研究界开始采用它。"

David-Porubsky-Mitchell-Vollger-Eichler-Genome-Science-Lab.webp

人类庞基因组研究联合会的另一篇系列论文发表在《基因组研究》杂志上，题目是"分阶段基因组组装中的差距和复杂结构变异位点"。第一作者是在艾希勒实验室从事研究的基因组科学代理讲师大卫-波鲁比斯基（David Porubsky）。

Porubsky 说："完成多个基因组比较困难，因为人类基因组是二倍体。人的基因组有两个拷贝：一个是从母亲那里遗传来的，另一个是从父亲那里遗传来的。因此，任务更加艰巨。这就是为什么还存在差距。要解决这些问题，需要在测序技术和底层组装算法方面有更多的发展，我们正在使用底层组装算法将所有这些碎片拼接在一起。"

传统上，科学家要分别重建 23 条染色体两份拷贝的 DNA 序列一直是个挑战，但现在已经取得了显著进展。要做到这一点，通常需要从父母双方以及孩子身上获取测序数据。然而，在临床环境中，父母的数据并不总是可用的。

Porubsky、Eichler 和他们的团队正在研究一种方法，试图生成一个完整的基因组组装，显示父母双方的基因集，但不需要获得任何父母的数据。他们使用的方法称为单细胞链测序，或 Strand-seq。

无论是哪种方法（基于三人组或无亲本数据）都可能导致信息缺失的缺口。研究小组分析了来自人类泛基因组参考联盟（Human Pangenome Reference Consortium）的 77 个分阶段组装的人类基因组中的信息缺失、组装断裂和方向错误。(分阶段的基因组组装试图解决从每个亲代传递过来的染色体中的变异组）。

研究小组了解到这两种方法都会产生差距的几个原因，其中包括 DNA 部分方向错误的区域。其中许多错误的方向与大面积倒位有关，即事物被形象地颠倒或倒置。其中大部分发生在 DNA 代码的相同重复序列之间。此外，还有一些主要的组装排列不连续性，被确定为经历了频繁扩张和收缩的 DNA 区域。重要的是，这些区域中有许多与蛋白质编码基因重叠，包括拷贝数变化的区域（与另一个人相比，一个部分重复的次数）。

"我在这项工作中的主要任务，是更好地了解我们在基因组组装中的不足之处，剩余的差距在哪里，以及如何弥补这些差距。我正在研究这些缺口的位置、频率和序列特性。我们发现，这些差距中有很多是由很长、高度重复的序列所代表的，而在目前的技术和算法下，这些序列是很难组装的。"Porubsky说。"实际上，我们未来更有能力解决这些问题，实际上，我们可以填补这些缺失的拼图，能够更好地理解人类基因组--甚至是人类基因组中非常复杂的部分。"

他指出，这些区域包含与生物医学相关的信息。

"这一点非常重要，因为基因组中的许多复杂部分都与遗传疾病有关，比如某些形式的自闭症和普拉德-威利综合征。分析这些区域可能有助于将来更好地了解如何治疗和诊断这些遗传疾病，并发现可能尚未发现的新疾病。"研究人员在论文中指出："[这些区域的]泛基因组表示将是最有用的，但实现起来更具挑战性。"