数学家利用人工智能和新型聚类算法识别新出现的COVID-19变种

曼彻斯特大学和牛津大学的科学家们开发了一种人工智能框架，可以识别和跟踪新的和令人担忧的 COVID-19 变异体，并在未来帮助处理其他感染。该框架结合了降维技术和曼彻斯特大学数学家开发的一种名为 CLASSIX 的新型可解释聚类算法。这样就能从海量数据中快速识别出未来可能带来风险的病毒基因组群。

叠加在冠状病毒插图上的 CLASSIX 聚类结果的风格化图像。资料来源：曼彻斯特大学、疾病预防控制中心/MSMI 的 Alissa Eckert；MAMS 的 Dan Higgins

本周发表在《美国国家科学院院刊》（PNAS）上的这项研究可以支持传统的病毒进化追踪方法，如系统发育分析，目前这种方法需要大量的手工整理。

曼彻斯特大学研究员、论文第一作者和通讯作者罗伯托-卡万齐（Roberto Cahuantzi）说："自从COVID-19出现以来，我们已经看到了多波新的变种、传播性增强、免疫反应逃避和疾病严重性增加。科学家们现在正加紧努力，以便在α、δ和Ω等这些令人担忧的新变种出现的最初阶段就将其定位。如果我们能找到一种快速有效的方法，就能更积极地采取应对措施，比如开发有针对性的疫苗，甚至有可能在变异体形成之前就将其消灭。"

拟议的 COVID-19 变异识别方法步骤示意图。资料来源：曼彻斯特大学

与许多其他RNA病毒一样，COVID-19 的变异率很高，而且两代之间的间隔时间很短，这意味着它的进化速度极快。这意味着识别未来可能出现问题的新毒株需要付出巨大的努力。

目前，GISAID 数据库（全球共享所有流感数据倡议）提供了近 1600 万个序列，该数据库提供了流感病毒的基因组数据。

从这些数据中绘制出所有 COVID-19 基因组的进化和历史，目前需要耗费大量的计算机和人力时间。

所述方法实现了此类任务的自动化。研究人员只用了一到两天时间，就用一台标准的现代笔记本电脑处理了 570 万个高覆盖率序列；这是现有方法无法做到的，由于减少了资源需求，更多研究人员掌握了识别相关病原体菌株的能力。

曼彻斯特大学数学科学教授托马斯-豪斯（Thomas House）说："大流行期间产生了前所未有的大量基因数据，这要求我们改进方法，对其进行彻底分析。数据仍在快速增长，但如果不显示出整理这些数据的益处，这些数据就有可能被移除或删除。"

"我们知道，人类专家的时间是有限的，因此我们的方法不应该完全取代人类的工作，而应该与他们并肩工作，以便更快地完成工作，并将我们的专家解放出来，从事其他重要的开发工作"。

拟议方法的工作原理是通过计数将 COVID-19病毒的基因序列分解成以数字表示的较小"词"（称为 3-mers）。然后，它利用机器学习技术，根据单词模式将相似的序列分组。

曼彻斯特大学应用数学教授斯特凡-居特尔（Stefan Güttel）说："与传统方法相比，我们开发的聚类算法CLASSIX对计算的要求要低得多，而且是完全可解释的，也就是说，它能对计算出的聚类提供文字和视觉上的解释"。

Roberto Cahuantzi 补充说："我们的分析是一个概念验证，证明了机器学习方法作为一种预警工具的潜在用途，可用于早期发现新出现的主要变种，而无需依赖生成系统发育。虽然系统发生学仍然是了解病毒祖先的'黄金标准'，但这些机器学习方法能够以较低的计算成本容纳比当前系统发生学方法多几个数量级的序列"。

编译自:ScitechDaily