Hugging Face发布生成式AI健康任务测试基准

生成式人工智能模型正被越来越多地引入医疗保健领域--在某些情况下，也许还为时过早。早期的采用者认为，这些模型可以提高效率，同时揭示那些可能被忽略的诊断视角。而批评者则指出，这些模型存在缺陷和偏差，可能会导致更糟糕的医疗结果。但是，是否有量化的方法来了解一个模型在完成总结病人记录或回答健康相关问题等任务时会有多大帮助或危害？

人工智能初创公司 Hugging Face 在最新发布的名为 Open Medical-LLM 的基准测试中提出了一种解决方案。Open Medical-LLM 是与非营利组织开放生命科学人工智能（Open Life Science AI）和爱丁堡大学自然语言处理小组的研究人员合作创建的，旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。

Open Medical-LLM 本身并不是一个全新的基准，而是将现有的测试集（MedQA、PubMedQA、MedMCQA 等）拼接在一起，旨在探究医学常识和相关领域（如解剖学、药理学、遗传学和临床实践）的模型。该基准包含要求医学推理和理解的选择题和开放式问题，借鉴了美国和印度医学执照考试和大学生物试题库等材料。

Hugging Face在一篇博文中写道："[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点，推动该领域的进一步发展，并最终促进更好的患者护理和治疗效果。"

Hugging Face 将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说，不要对 Open Medical-LLM 抱有过高期望，以免导致不明智的部署。

阿尔伯塔大学神经病学住院医生利亚姆-麦考伊（Liam McCoy）在"X"上指出，医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。

图片.png

博文的共同作者、"Hugging Face"研究科学家 Clémentine Fourrier 对此表示赞同。

"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值，但随后始终需要进行更深入的测试阶段，以检验模型在真实条件下的局限性和相关性，"Fourrier在 X 上回答说，"医疗[模型]绝对不应该由患者自行使用，而应该经过培训，成为医学博士的辅助工具。"

这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统，可以扫描眼睛图像，寻找视网膜病变的证据，视网膜病变是导致视力丧失的主要原因。但是，尽管理论上具有很高的准确性，该工具在实际测试中被证明并不实用，结果不一致，与实际操作普遍不协调，令患者和护士都感到沮丧。

美国食品和药物管理局迄今已批准了 139 种与人工智能相关的医疗设备，其中没有一种使用了生成式人工智能，这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中，或许更重要的是测试其结果如何随时间变化，这异常困难。

这并不是说 Open Medical-LLM 没有用处或信息量不大。结果排行榜可以提醒人们，模型对基本健康问题的回答有多么糟糕。但是，Open Medical-LLM 以及其他任何基准都无法替代经过深思熟虑的真实世界测试。