哈佛全新类ChatGPT癌症诊断AI登上Nature 准确率最高96%
能够执行多种任务,识别19种癌症类型,预测患者生存率……哈佛医学院研究人员提出CHIEF,一种多功能AI癌症诊断模型,表现出类似于ChatGPT的灵活性,远超其他现有的癌症诊断模型。近日,来自哈佛医学院等机构的科学家们开发了一种名为CHIEF(Clinical Histopathology Imaging Evaluation Foundation,临床组织病理学成像评估基础)的多功能AI癌症诊断模型,并于9月4日登上“Nature”。
论文地址:https://www.nature.com/articles/s41586-024-07894-z
值得一提的是,尽管最近出现了其他用于医学诊断的病理图像基础AI模型,但CHIEF是第一个能够预测患者预后并在多个国际患者群体中验证的模型。
工作原理
当前,大多数AI癌症诊断系统通常被训练来执行特定任务。例如,检测癌症的存在,或分析肿瘤的基因特征,且通常仅适用于少数几种癌症类型。
相比之下,全新的CHIEF模型则具有类似于ChatGPT的灵活性——不仅能够执行多种任务,而且还能识别不同癌症类型需要特别关注的区域。
通过读取肿瘤组织的数字切片,它可以检测癌细胞并根据图像中观察到的细胞特征分析肿瘤的基因特征。
此外,还可以预测多种癌症类型的患者生存率,并精确定位肿瘤周围组织的特征,即肿瘤微环境。这些特征与患者对手术、化疗、放疗和免疫治疗等标准治疗的反应有关。
更进一步的,CHIEF还具有生成新见解的潜力——它发现了此前未被认为与患者生存相关的特定肿瘤特征。
研究团队指出,这些发现进一步证明了AI可以帮助临床医生高效、准确评估癌症,包括识别可能对标准癌症疗法反应不佳的患者。
论文主要作者,哈佛医学院Blavatnik研究所生物医学信息学助理教授Kun-Hsing Yu
模型训练与表现
首先,CHIEF在1500万张未标记的图像上进行训练,这些图像被分成多个模型可能需要特别关注的部分。
然后,CHIEF在6万张全切片图像上进行了训练,其中包括肺、乳腺、前列腺、结肠、胃、食管、肾脏、脑、肝、甲状腺、胰腺、宫颈、子宫、卵巢、睾丸、皮肤、软组织、肾上腺和膀胱等组织的全切片图像。
这种训练方法,使得模型不仅关注图像的局部,还能够结合整个图像,将某一局部的特定变化与整体联系起来。从而,CHIEF在进行癌症分析时能够考虑更广泛的背景信息,更全面地解读图像,而不是仅仅专注于某个特定区域。
训练完成后,研究团队在19400多张全切片图像上测试了CHIEF的性能。这19400多张全切片图像来自全球24家医院和患者群体中收集的32个独立数据集。
总体上,CHIEF在以下任务中比其他最先进的AI方法高出36%:癌细胞检测、肿瘤起源识别、预测患者结果、以及识别与患者治疗反应相关的基因和DNA模式。
无论肿瘤细胞是通过活检还是手术切除获得,CHIEF的表现都同样出色。无论使用何种技术对癌细胞样本进行数字化处理,它的准确性也同样高。
研究人员表示,这种适应性使CHIEF能够在不同的临床环境中使用,而当前大部分AI癌症诊断模型通常只能在通过特定技术获取的组织中表现良好。
CHIEF的4种应用
癌症检测
CHIEF在癌症检测中的准确率达到了近94%,测试涵盖了15个数据集,其中包含11种癌症类型。
在另一个涵盖5个活检数据集的测试中,CHIEF达到了96%的准确率,其中包括食道、胃、结肠和前列腺在内的多种癌症类型检测。
当研究人员用数据集之外的手术切除肿瘤切片来测试CHIEF时,模型的准确率超过了90%。
模型注意力得分的可视化显示,CHIEF准确识别了黑色素瘤、肺癌和肾癌的癌变区域
分析肿瘤的基因特征
肿瘤的基因构成包含了未来肿瘤发展和最佳治疗方案的关键线索。为了获取这些信息,肿瘤学家通常会对肿瘤样本进行DNA测序。
但由于将样本送往专业的DNA测序实验室需要一定的成本和时间,世界各地普遍没有进行常规的详细的基因组分析。即使是在资源充足的地区,这一过程也可能需要数周时间。
不过,这是AI可以填补的空白。
研究人员称,对于图像中特定的基因组异常,识别其细胞模式,可能提供一种快速且经济的替代基因组测序的方案。
CHIEF在预测肿瘤的基因变异方面优于现有的AI方法。这种新的AI方法成功识别了与癌症生长和抑制相关的多个重要基因特征,并预测了肿瘤在各种标准癌症疗法过程中的关键基因突变。
CHIEF还检测到了特定的DNA模式,这些模式与结肠肿瘤对一种称为免疫检查点抑制的免疫疗法的反应效果相关。
在观察全组织图像时,CHIEF识别出54个常见突变癌症基因中的突变,总体准确率超过70%,优于当前用于基因组癌症预测的最先进AI方法。
研究团队使用CHIEF模型来预测特定基因突变,这些突变与FDA(美国食品药品监督管理局)批准的靶向治疗方法的效果有关。研究涉及的18个基因分布在人体的15个不同解剖部位。
CHIEF在多种癌症类型中都达到了高准确率。在检测一种名为弥漫性大B细胞淋巴瘤的血液癌症中的EZH2基因突变时,CHIEF达到了96%的准确率;在检测甲状腺癌中的BRAF基因突变时,CHIEF的准确率达到了89%;在检测头颈部癌症中的NTRK1基因突变时,准确率为91%。
CHIEF 在预测癌症类型的组织病理学图像中的基因突变状态方面取得了很高的成绩
预测患者
生存率
基于初次诊断时获得的肿瘤组织病理图像,CHIEF能够成功预测患者的生存期。
总体上,CHIEF预测高风险和低风险死亡率的能力在来自17家不同机构的患者样本中得到了测试和验证。
在所有研究的癌症类型和患者群体中,CHIEF能够区分长期生存的患者和短期生存的患者。CHIEF的表现比其他模型好8%。
在患有晚期癌症的患者中,CHIEF的表现比其他AI模型高出10%。
识别不同癌症类型需要特别关注的区域
该模型在图像上识别出与肿瘤侵袭性和患者生存率相关的明显模式。
为了可视化特定的区域,CHIEF在图像上生成了热图。当人类病理学家分析这些由AI生成的热点时,他们发现了一些反映癌细胞与周围组织相互作用的有趣信号。
模型注意力的可视化显示了肺癌患者生存预测中的重要区域
其中一个特征是,在长期生存者的肿瘤区域中,免疫细胞的数量比短期生存者更多。Yu指出,这一发现有其合理性,因为更多的免疫细胞可能表明免疫系统已被激活来攻击肿瘤。
在观察短期生存者的肿瘤时,CHIEF识别出了一些需要关注的区域。这些区域的特征包括各种细胞成分的异常大小比例、细胞核上更多的非典型特征、细胞之间较弱的连接,以及肿瘤周围区域中较少的结缔组织。
这些肿瘤周围还有更多的死亡细胞。例如,在乳腺肿瘤中,CHIEF指出组织内的坏死(或细胞死亡)是一个需要关注的区域。另一方面,生存率较高的乳腺癌患者肿瘤周围,更有可能保持类似于健康组织的细胞结构。
研究团队指出,与生存率相关的视觉特征和需要关注的区域因癌症类型而异。
参考资料:
https://hms.harvard.edu/news/new-artificial-intelligence-tool-cancer