麻省综合医院的研究人员发现,ChatGPT 在所有医学专科和临床护理阶段的准确率接近 72%,在最终诊断方面的准确率达到 77%。来自 Mass General Brigham 的研究人员进行了一项研究,结果表明 ChatGPT 在整个临床决策过程中,从提出潜在诊断到最终诊断和确定护理管理策略,准确率约为 72%。
这款基于扩展语言模型的人工智能聊天机器人在不同医疗领域的初级保健和急诊环境中都表现出了一致的性能。研究结果最近发表在《医疗互联网研究杂志》上。
"我们的论文全面评估了通过 ChatGPT 提供的决策支持,从一开始与病人打交道到整个护理场景,从鉴别诊断一直到检测、诊断和管理,"论文通讯作者、麻省总医院创新和商业化副主席兼战略创新领导者、MESH 孵化器执行主任 Marc Succi 博士说。
"目前还没有真正的基准,但我们估计这种表现相当于医学院刚毕业的实习生或住院医师的水平。这告诉我们,一般来说,LLM 有潜力成为医学实践的辅助工具,并以令人印象深刻的准确性支持临床决策。"
人工智能技术的变化日新月异,正在改变包括医疗保健在内的许多行业。然而,人们还没有研究过 LLM 在临床护理中的全面辅助能力。在这项关于如何将 LLMs 用于临床建议和决策的跨专业综合研究中,Succi 和他的团队测试了一个假设,即 ChatGPT 能够在与患者的整个临床接触过程中提出诊断建议,决定临床管理方案,并最终做出诊断。
这项研究是通过将 36 个已发表的标准化临床案例的连续部分粘贴到 ChatGPT 中完成的。首先,要求该工具根据患者的初始信息(包括年龄、性别、症状以及是否急诊)提出一系列可能的诊断或鉴别诊断。然后,ChatGPT 获得更多信息,并被要求做出处理决定和给出最终诊断--模拟真实病人就诊的整个过程。研究小组在结构化盲法过程中比较了 ChatGPT 在鉴别诊断、诊断检测、最终诊断和处理方面的准确性,对正确答案给予评分,并使用线性回归评估 ChatGPT 的表现与小插图人口统计信息之间的关系。
研究人员发现,总体而言,ChatGPT 的准确率约为 72%,在最终诊断方面表现最佳,准确率为 77%。在进行鉴别诊断时,它的准确率最低,只有 60%。而在临床管理决策方面,如在得出正确诊断后决定用什么药物治疗病人,其准确率仅为 68%。研究中其他值得注意的发现包括,ChatGPT 的答案没有显示出性别偏见,其在初级和急诊护理中的整体表现稳定。
"ChatGPT 在鉴别诊断方面表现不佳,而鉴别诊断是医生必须弄清楚该怎么做的医学难题,"Succi 说。"这一点很重要,因为它告诉我们医生在哪些方面才是真正的专家,并能带来最大的价值--在病人护理的早期阶段,几乎没有什么现成的信息,这时需要一份可能的诊断清单。"
作者指出,在考虑将 ChatGPT 等工具整合到临床护理中之前,需要更多的基准研究和监管指导。下一步,Succi 的团队将研究人工智能工具能否改善医院资源有限地区的病人护理和治疗效果。
人工智能工具在医疗领域的出现具有开创性意义,有可能积极重塑医疗服务的连续性。麻省总医院布里格姆分院作为全美顶尖的综合学术医疗系统和最大的创新企业之一,在对新兴技术进行严格研究方面处于领先地位,为将人工智能负责任地融入医疗服务、劳动力支持和管理流程提供依据。
Mass General Brigham 首席信息官兼数字高级副总裁 Adam Landman(医学博士、理学硕士、医学信息管理硕士、MHS)表示:"Mass General Brigham 认为 LLM 在帮助改善医疗服务和临床医生体验方面大有可为。我们目前正在评估 LLM 解决方案,以协助临床工作。"