为了确定癌症的类型和严重程度,病理学家通常会在显微镜下检查肿瘤活检的薄片。 然而,要确定驱动肿瘤生长的基因组变化--这是指导治疗的关键信息--需要对从肿瘤中分离出来的RNA进行基因测序。 这一过程可能需要数周时间,花费数千美元。
一种新的人工智能程序 SEQUOIA 可以分析肿瘤活检的显微图像(左图,紫色),并迅速确定其中包含的细胞中哪些基因可能开启或关闭(右图的基因表达以红色和蓝色表示)。 图片来源:Emily Moskal/斯坦福大学医学院
现在,斯坦福医学院的研究人员开发出了一种人工智能驱动的计算程序,只需根据活检的标准显微镜图像,就能预测肿瘤细胞内数千个基因的活性。 该工具是利用来自7000多个不同肿瘤样本的数据创建的,最近发表在Nature Communications上。 研究小组表明,它可以利用常规收集的活检图像预测乳腺癌的基因变异,并预测患者的预后。
生物医学数据科学教授、论文资深作者奥利维尔-格瓦特(Olivier Gevaert)博士说:"这种软件可用于快速识别患者肿瘤中的基因特征,加快临床决策,为医疗保健系统节省数千美元。"
斯坦福大学研究生玛丽亚-皮祖里亚(Marija Pizuria)和博士后研究员郑元宁(Yuanning Zheng)博士和弗朗西斯科-佩雷斯(Francisco Perez)博士也参与了这项工作。
临床医生越来越多地根据病人的癌症影响到哪个器官,以及肿瘤利用哪些基因来促进其生长和扩散,来选择向病人推荐哪种癌症治疗方法,包括化疗、免疫治疗和基于激素的治疗。 开启或关闭某些基因可能会使肿瘤更具侵袭性、更容易转移,或更容易或更不容易对某些药物产生反应。
然而,要获取这些信息,往往需要进行昂贵而耗时的基因组测序。Gevaert 和他的同事们知道,单个细胞内的基因活动可以改变这些细胞的外观,而这些改变往往是人眼无法察觉的。 他们求助于人工智能来寻找这些模式。
研究人员从 16 种不同癌症类型的 7584 例癌症活检开始研究。 每份活检样本都被切成薄片,并用苏木精和伊红染色法进行制备,这是观察癌细胞整体外观的标准方法。 此外,还可以获得癌症转录组的信息,即细胞正在积极使用哪些基因。
研究人员整合了新的癌症活组织切片以及其他数据集(包括转录组数据和数千个健康细胞的图像)后,他们命名为SEQUOIA(基于幻灯片的线性化表达量化)的人工智能程序就能从染色图像中预测出15000多个不同基因的表达模式。 对于某些癌症类型,人工智能预测的基因活性与真实基因活性数据的相关性超过80%。 一般来说,初始数据中包含的特定癌症类型样本越多,模型在该癌症类型上的表现就越好。
Gevaert说:"该模型经过多次迭代才达到我们满意的性能。但最终,对于某些肿瘤类型,它达到了可以在临床上发挥作用的水平。"
医生在做出临床决定时,往往不是一个一个地查看基因,而是查看包括数百个不同基因的基因特征。 例如,许多癌细胞会激活由数百个与炎症有关的基因或数百个与细胞生长有关的基因组成的相同基因组。 与预测单个基因表达的性能相比,SEQUOIA 在预测此类大型基因组程序是否被激活方面更加准确。
为了使数据易于获取和解读,研究人员对 SEQUOIA 进行了编程,将基因研究结果显示为肿瘤活检的可视化地图,让科学家和临床医生看到基因变异在肿瘤不同部位的不同表现。
为了测试 SEQUOIA 在临床决策中的实用性,Gevaert 和他的同事们确定了该模型可以准确预测表达的乳腺癌基因,这些基因已经用于商业乳腺癌基因组测试。 (例如,美国食品和药物管理局批准的 MammaPrint 检测可分析 70 个乳腺癌相关基因的水平,为患者提供癌症复发风险的评分)。
Gevaert说:"乳腺癌有许多经过充分研究的基因特征,过去十年的研究表明,这些特征与治疗反应和患者预后高度相关。这使它成为这一模型的理想测试案例。"
研究小组表明,SEQUOIA 只需使用肿瘤活检的染色图像,就能提供与 MammaPrint 相同类型的基因组风险评分。 研究结果在多组不同的乳腺癌患者身上得到了重复。 在每种情况下,被SEQUOIA确定为高风险的患者的预后都较差,癌症复发率较高,癌症复发时间较短。
Gevaert说,他的团队正在改进算法并研究其潜在应用。 他说,SEQUOIA将来可以减少对昂贵的基因表达检测的需求。
他说:"我们已经证明了这对乳腺癌有多大的帮助,现在我们可以将它用于所有癌症,研究任何基因特征。这是我们以前没有的全新数据来源。"
编译自/ScitechDaily