全球范围内正在展开一项雄心勃勃的计划,旨在为地球上185万种真核生物进行基因组测序。这项工作将极大地提升人类对生物学的认知,同时为物种保护与生物多样性恢复提供关键数据支持。
在如今的基因组测序过程中,AI工具已被广泛应用,用于高精度采集、组装和校准DNA数据,确保在数十亿个遗传片段中最大限度地减少错误。由全球60余个项目联合参与的“地球生物基因组计划”(Earth BioGenome Project, EBP)于2018年启动,预计耗资近50亿美元,至今已为4386个物种完成数据贡献,覆盖哺乳动物、爬行动物、鱼类、鸟类、昆虫、植物等各类生物。

该项目意义重大,原因在于每天平均有数十个物种灭绝。一旦它们消失,人类将失去了解其进化和生存方式的最后机会。全面建立约200万物种的基因组目录,将为生物学研究和地球保育留下宝贵资源。
虽然目前EBP距离序列全部物种的宏伟目标还只有很小的进展,但近年来AI和自动化技术的迅速发展有望加速测序进程。Google研究团队在其中扮演了重要角色:其发布于2018年的AI工具“DeepVariant”,能够利用现代高通量测序仪(HTS)生成的数据,准确重建个体的完整基因组。由于HTS仪器一次只产生数十亿个短片段,AI将片段组装为可靠完整序列,是测序的一大挑战。DeepVariant将此过程转化为图像分类问题,由深度神经网络分析比对后的可视化数据,判断基因变异的真实性或仪器错误,精确度显著高于传统方法。

Google研究团队今年还推出了“DeepPolisher”工具,该工具可将基因组组装过程中的错误率降低50%,防止后续基因注释时遗漏可能导致疾病的遗传变异。借助此类工具,Google希望帮助科研人员了解物种如何规避疾病风险,并在濒危物种保护中实现有针对性的干预措施。
报道以新西兰特有的濒危鹦鹉——鸮鹦鹉(Kākāpō)为例,说明基因组测序对物种保护的意义。2015年,该物种仅剩49只。科学家利用群体的基因数据,分析其遗传多样性,合理迁徙并繁育个体,有效避免了近亲繁殖导致的生育率低、免疫力弱问题,三代后个体数已扩大至近200只。目前新西兰群岛上该鹦鹉数量已超过250。
随着AI和自动化的不断进步,EBP团队未来完成测序工作的效率也将大幅提升。相较于首个人类基因组测序花费10年、成本高达30亿美元,如今这一过程仅需一天、技术成本降至1000美元。
如需了解更多项目详情,欢迎访问“地球生物基因组计划”官网: