《连线》：机器学习开始“介入”遗传控制

这个世纪头10年互联网的渗透深刻地改变了世界的面貌。下个10年，人工智能不仅可能改变客观世界，改变上个10年的互联网呈现形态，甚至改变我们人类本身。本文摘编自《连线》。人类的基因就像每一个秘方都有操作方法和配料一样。哪怕是一个小小的的错误也会提高患病的风险。

在你的身体的每一个细胞中存在着相同的基因，而它们是构建蛋白质的DNA编码的集合。但是，你的细胞不可能完全相同。神经细胞能发出电信号，肝细胞能分解化学物质，肌肉细胞能通过伸缩来移动身体。细胞如何通过相同的一套基本的遗传密码来行使高度分工的功能？答案就是如何控制蛋白质是一个复杂，多层次的体系。

弗雷把基因比作面包师有可能会使用一个配方。所谓食谱就是一份包括配料，面粉，鸡蛋和黄油的清单，并且上面还得写着如何处理这些原料。而在细胞中，配料是指基因中编码的蛋白的部分;并且基因周围是如何将这些成分结合基因组的说明。

正如面粉，鸡蛋和黄油可以转化为数百种不同的烘焙食品一样，遗传元件可以装配成许多不同的蛋白质。这个过程被称为选择性剪接，因此基于相同遗传物质的细胞种类如此之多。弗雷和他的同事利用一个复杂的机器学习方式来确定基因突变的位置，并预测哪些因素影响了这些基因突变。

研究人员已经确定了可能发生自闭症的基因和研究了一个系统来预测与癌症相关的基因突变是否对人体有害。“我希望本文将对人类遗传学领域有很大的影响，而这个影响是通过提供给遗传学家一个来识别基因突变工具来产生的”克里斯•比尔格说，美国麻省理工学院的计算生物学家。

但研究的真正意义是提供了探索DNA的新工具，而这个工具诞生是在DNA很难被破解情况下。许多人类遗传学研究的仅是已测序产生的蛋白质的基因组中的一小部分。“这使得全基因组序列的论点很重要，”汤姆•库珀说，得克萨斯州休斯敦贝勒医学院的生物学家。

破解基因信息

拼接的基因只是其中的一部分的非编码基因组的，而这部分基因是不产生的蛋白质。但是，这却是非常重要的一个。大约90％的基因会发生选择性剪接，科学家估计拼接成的代码会占到疾病相关基因的10%-50%,“当你发生基因突变时，事情会变得很糟糕。”弗雷说。

“在历史上，人们把注意力集中在蛋白质编码区的突变，在一定程度上是因为他们能更好的处理这些突变，”马克•格斯坦说，耶鲁大学的生物信息学家。“当我们更好地理解DNA序列中蛋白质编码区域之外的部分，我们会更好的理解他们在疾病中扮演的重要角色。”

科学家们已经取得了一些进展–理解细胞如何生成一个特定蛋白质，但大部分蛋白质的生成一直是一个谜。而现在弗雷的团队能够破译其中的一些调控区域，确定了一个老鼠基因组中的一个基因的粗略的拼接过程。在过去的四年中，遗传学数据，特别是人的数据有了大幅的提升，以及机器学习技术的功能的增强，这些使弗雷团队能够预测拼接是如何影响特定的基因突变。“全基因组数据最终肯定能进行那样的预言，”马诺利斯克里斯说，麻省理工学院计算生物学家。

弗雷的研究小组使用的是深度学习法。像任何一种机器学习技术一样，该模型试图寻找两组数据之间的关系。在这种情况下，弗雷团队把基因和不同的组织者蛋白质的数据联系起来。（正如两个蛋糕配方的不同在于面粉和糖的比例，脑细胞和肝细胞的不同点在于他们产生蛋白质的种类和数量。）在本质上，该算法旨在读取DNA中蕴含的遗传信息。

现在科学家已经知道如何拼接基因的某些方面，而新的模式是独一无二的。它可以让科学家们来预测基因的各种各样的拼接方式。 “这个小组把我们知道拼接基因的规则设计成一个我们可以得到所有结果的程序。”比尔格说。

例如，当基因某个片段发生错误时，研究人员可以利用模型来预测会蛋白质会发生什么变化。拼接基因突变已经被证实与某些疾病相关，例如脊髓性肌萎缩(婴儿死亡的主要原因)和一些结肠直肠癌。在新的研究中，研究人员使用了新模型来分析来自某些疾病患者的基因数据。科学家们从中发现了一些众所周知的与这些疾病有关的基因突变，验证了该模型的正确性。他们也选择了一些新的候选基因突变，其中最值得注意的是与自闭症相关的基因。

弗雷说，模型的其中一个好处就是它不是使用疾病数据工作的，所以它应该适用于在任何疾病或特质。研究人员计划公开该系统，这意味着科学家将能够将其应用到更多的疾病。

更广泛的范围

该模型还表明，当涉及到基因组，环境是很重要的，就像在英语中，弗雷说: “‘cat’是指不同的事情，我们是否在谈论宠物或建筑设备。”同样，细胞如何解读一组拼接基因依赖于附近的其他基因。一串DNA本意是“生成大量X”，当它靠近的第二组指令时可能意味着“不生成X”。 “一个序列是否有效果取决于另一个序列是否起作用，”弗雷说，“不难理解的是，这将很难预测基因拼接的模式。”

此外，该模型可以帮助科学家重新考虑已知的基因突变，比尔格说。研究人员已经知道了一些拼接指令是在蛋白质编码区域内发现的。在这些情况下，相同的基因序列可以解读为为一种成分或者如何处理它的指令。（考虑奶油，它既是一种原料也是一种制作方法。）如果出现做很少或没有改变相应的蛋白质在，我们就把这种蛋白质编码区的突变当作无关紧要。但是，当使用该拼接基因理论来解释时，该突变被发现可能对选择性剪接产生阻碍作用，从而造成了深远的影响。弗雷的研究小组发现，在整个基因组中，这些错误的例子很多。

弗雷希望该模型将最终被证明对研制特定的药物有用。例如，医生还不能确定有新的突变的健康人是否容易患癌症等疾病。随着进一步的验证，弗雷的模型可能有助于回答这个问题。 “我们可以分析任何突变，甚至是那些尚未确定”弗雷说。这使得研究人员能够预测一个新的突变是否可能是危险的或无害，在本质上，它进行了一个筛选性试验。 “我希望看到它对医学产生巨大的影响，”他说，“我想这个付诸实践。”