基因组是决定一个生物体特征的遗传蓝图,对于病毒而言DNA和RNA是基因组序列的构建模块,而直接操纵这些核酸可以使生物体发生切实的变化。因此,基因工程的发展重点在于我们操纵基因组序列的能力。但这是一项艰巨的任务。例如,精确地控制一类被称为“趾甲开关”的特定工程化RNA分子,可以为了解细胞环境和潜在的疾病提供重要的洞察力。
然而,以前的实验表明,“趾甲开关”并不可控,很多情况下生物对修饰没有反应,即使它们已经根据已知的RNA折叠规则被设计成对给定输入产生所需的输出。
考虑到这一点,来自哈佛大学Wyss研究所和麻省理工学院的两个研究团队开发了一套机器学习算法可以改善这一过程。他们使用深度学习来分析大量的趾甲开关序列,以准确预测哪些趾甲能够可靠地执行预期任务,从而使研究人员能够为他们的实验确定高质量的趾甲。他们的研究结果今天已经在《自然》杂志上分别发表了两篇论文。
对于解决任何机器学习问题,第一步是收集特定领域的数据来训练模型。研究人员收集了一个由脚趾头开关序列组成的大型数据集。联合第一作者、在Wyss工作的研究生Alex Garruss表示。
"我们通过沿23种病毒和906种人类转录因子的整个基因组系统性地取样短触发区域,设计并合成了一个庞大的脚趾开关库,总计近10万个。"
由于有两个独立的团队,研究人员尝试用两种不同的技术来处理这个问题。第一篇论文的作者决定不把趾甲开关作为碱基序列来分析,而是作为碱基对可能性的2D图像来分析。这种被称为Visualizing Secondary Structure Saliency Maps,或VIS4Map的方法,成功地识别了影响toehold开关性能的物理元素,为利用传统分析技术没有发现的RNA折叠机制提供了洞察力。
在生成了数千个趾甲开关的数据集后,一个团队使用基于计算机视觉的算法将开关序列分析为二维图像,而另一个团队则使用自然语言处理将序列解释为用RNA的 "语言 "书写的"文字"。
第二篇论文的作者创建了两种不同的深度学习架构,利用正交技术来应对识别 "易感"趾甲开关的挑战。第一个模型是基于卷积神经网络(CNN)和多层感知器(MLP)的,它将趾甲序列视为1D图像,或核苷酸碱基线。使用一种名为 "基于序列的toehold优化和重新设计模型"(STORM)的优化技术,它识别了碱基的模式和这些碱基之间的潜在相互作用,以标记感兴趣的toehold。
第二种架构将问题建模到自然语言处理(NLP)领域,将每个脚趾头序列视为由单词模式组成的短语。然后,任务是训练一个模型来组合这些单词或核苷酸碱基,以使一个连贯的短语。这个模型与基于CNN的模型相结合,创建核酸语音(NuSpeak)。这种优化技术重新设计了一个给定趾甲开关的最后9个核苷酸,同时保持其余21个核苷酸不变。这样就可以创建专门的趾甲开关,检测特定病原体RNA序列的存在,并可用于开发新的诊断测试。
通过依次使用这两种模型,研究人员能够预测哪些趾甲序列会产生高质量的传感器
为了测试这两种模型,研究人员使用其优化的趾甲开关感应了SARS-CoV-2的片段,这是一种导致COVID-19的病毒基因组。NuSpeak将传感器的性能平均提高了160%。另一方面,STORM创建了四个SARS-CoV-2病毒RNA传感器的更好版本,将其性能提高了28倍。对于这些令人印象深刻的结果,第二篇论文的共同第一作者,Wyss研究所的MIT学生Katie Collins表示。
"STORM和NuSpeak平台的一个真正的好处是,它们使你能够快速设计和优化合成生物学组件,正如我们为COVID-19诊断器开发的趾甲传感器所显示的那样。