研究称五大头部AI平台50%医学建议“有问题”

摘要:

4月15日,据彭博社报道,一项最新研究显示,AI驱动的聊天机器人在提供医学建议时,约有半数时间会给出有问题的答案。这一发现凸显出,AI这项正日益融入日常生活的新技术存在健康风险。

来自美国、加拿大和英国的研究人员评估了五大头部AI平台:ChatGPT、Gemini、Meta AI、Grok和DeepSeek,方法是在五个健康类别下分别向每个平台提出10个问题。根据本周发表在医学期刊《BMJ Open》上的研究结果,在这些AI聊天机器人的所有回答中,约有50%被认为“有问题”,其中近20%属于“高度有问题”。

研究发现,这些聊天机器人在不同类型问题上的表现差异明显:在封闭式提问(答案确定)以及与疫苗和癌症相关的问题上表现相对更好,但在开放式问题以及如干细胞研究和营养学等领域表现较差。


黄色代表有问题,橙色代表高度有问题

研究人员表示,这些回答通常以自信和确定的口吻给出,但没有一个聊天机器人在回答任何提示时能提供完整且准确的参考文献列表。在整个研究过程中,聊天机器人只有两次拒绝回答问题的情况,且均来自Meta AI。

该研究结果凸显了一个日益增长的担忧:人们正在越来越多地使用生成式AI平台来获取医疗建议,但这些平台并未获得提供医学建议的医疗执业许可,也缺乏做出诊断所需的临床判断能力。

AI聊天机器人的爆炸式增长使其成为人们寻求疾病指导的热门工具。OpenAI表示,每周有超过2亿人向ChatGPT咨询健康和保健方面的问题。该平台于今年1月宣布,将为普通用户和临床医生分别推出健康工具。同月,Anthropic也宣布其Claude产品将推出一项新的医疗保健服务。

这项发表在《BMJ Open》上的研究的作者表示,如果在缺乏公众教育和监管的情况下部署聊天机器人,一个重大风险是它们可能会放大错误信息的传播。

他们称,这些发现“凸显了重要的AI行为局限性,并表明有必要重新评估AI聊天机器人在面向公众的健康与医疗沟通中的部署方式”。他们还指出,这些系统往往能够生成“听起来权威但可能存在缺陷的回答”。

查看评论
created by ceallan