一个由来自美因茨、瓦伦西亚、马德里和苏黎世的四名高级科学家组成的国际团队在《美国国家科学院院刊》上发表了一项开创性的研究,探索了地球生命进化过程中最重大的飞跃之一:真核细胞的起源。
虽然内共生理论(认为真核细胞起源于古菌与细菌的融合)被广泛接受,但自古菌与细菌融合以来已过去数十亿年。因此,在通往真核生物的系统发育树中,几乎找不到任何可见的进化中间体。这一缺失环节被称为生物学核心的黑洞。
参与该项目的美因茨约翰内斯古腾堡大学 (JGU) 代表 Enrique M. Muro 博士解释说:“这项新研究融合了理论和观察方法,从定量上了解了生命遗传结构如何转变,从而允许如此复杂的增加。”
《美国国家科学院院刊》(PNAS)的文章表明,蛋白质及其对应基因的长度在整个生命树中遵循对数正态分布。为了得出这一结论,研究团队分析了9913个蛋白质组和33627个基因组。对数正态分布通常是乘法过程的结果。研究人员运用奥卡姆剃刀原理,将基因长度进化建模为一个乘法随机过程。这种方法考虑了所有遗传机制对序列长度的综合影响。
他们从细菌、古菌和真核生物的最后一个共同祖先LUCA开始,通过理论和数据论证,平均基因长度随时间呈指数级增长。他们还发现了基因长度进化中的一种标度不变机制,即基因长度的方差与平均值成比例。通过对33627个基因组的分析,他们证实了这些模式适用于所有物种,并表明平均基因长度是衡量生物体复杂性的有力指标。
蛋白质编码基因长度分布随进化时间的演变。图片来源:Fernando J. Ballesteros
马德里理工大学的 Bartolo Luque 博士在总结其定量方法的实际成果时指出:“通过了解一个物种中蛋白质编码基因的平均长度,我们可以计算出该物种内基因长度的整个分布。”
当比较不同物种中蛋白质平均长度与其对应基因长度的进化时,我们发现原核生物的基因中几乎没有非编码序列,因此蛋白质的进化是同步的。然而,一旦平均基因长度达到1500个核苷酸,蛋白质就不再参与基因生长的增殖过程,在真核细胞出现后,蛋白质的平均长度会在一个明显的阈值上稳定在500个氨基酸左右,这标志着真核细胞的出现。从那时起,与蛋白质的情况不同,由于非编码序列的存在,基因的平均长度会像原核生物一样持续增加。
随后,临界现象分析得出结论:在1500个核苷酸的临界基因长度处发生了相变,这一相变在磁性材料物理学中已被广泛研究。这标志着真核生物的出现,并将生命的进化分为两个不同的阶段:编码阶段(原核生物)和非编码阶段(真核生物)。此外,还观察到了这些转变的特征现象,例如临界减速,此时系统的动力学在临界点附近陷入许多亚稳态。“这在早期原生生物和真菌中得到了证实,”瓦伦西亚大学的费尔南多·巴列斯特罗斯博士说道。
美因茨大学的恩里克·穆罗博士利用研究团队在 GitHub 上的工作库,展示了相变的证据之一。图片来源:Juan Mac Donagh
此外,“相变是算法化的,”苏黎世大学的乔迪·巴斯科普特教授补充道。在编码阶段,在类似于LUCA的场景中,由于蛋白质较短,增加蛋白质及其相应基因的长度在计算上很简单。然而,随着蛋白质长度的增加,寻找更长的蛋白质变得不可行。
这种由基因以与以往相同的速度生长而蛋白质却无法生长所造成的紧张关系,随着非编码序列被整合到基因中,得到了持续而突然的缓解。凭借这一创新,寻找新蛋白质的算法迅速降低了计算复杂度,并通过剪接体和细胞核实现了非线性化,从而将转录和剪接与翻译分离开来。这发生在相变的临界点,本研究将其追溯到26亿年前。
这项最近发表在《美国国家科学院院刊》(PNAS)上的研究不仅解答了关键问题,而且是跨学科的,融合了计算生物学、进化生物学和物理学。美因茨大学有机体和分子进化研究所的恩里克·穆罗博士强调:“它有可能引起众多学科的广泛关注,并为其他研究团体探索不同的研究途径(例如能量理论或信息理论)奠定基础。”
真核细胞是地球生命进化史上复杂性最显著的提升,它作为一种相变而出现,并开启了其他重大转变的道路,如多细胞性、有性和社会性,这些转变塑造了我们今天所知的星球上的生命。
编译自/ScitechDaily