研究发现人们很难从AI聊天机器人那里获得有用的健康建议
由于医疗体系负担过重,等候名单冗长,成本不断上升,许多人开始使用像 ChatGPT 这样的人工智能聊天机器人进行医疗自我诊断。最近的一项调查显示,大约六分之一的美国成年人已经至少每月使用聊天机器人寻求健康建议。
但牛津大学最近领导的一项研究表明,过于相信聊天机器人的输出可能会有风险,部分原因是人们很难知道应该向聊天机器人提供哪些信息才能获得最佳的健康建议。
“这项研究揭示了双向沟通的障碍,”牛津互联网研究所研究生院主任、该研究的合著者亚当·马赫迪表示。“那些使用聊天机器人的人并没有比那些依赖在线搜索或自身判断等传统方法的参与者做出更好的决策。”
在这项研究中,作者在英国招募了约1300人,并向他们提供了一组医生编写的医疗场景。参与者的任务是识别场景中的潜在健康状况,并使用聊天机器人以及他们自己的方法来找出可能的行动方案(例如去看医生或去医院)。
参与者使用了 ChatGPT、GPT-4o 以及 Cohere 的 Command R+ 和 Meta 的 Llama 3(后者曾是该公司 Meta AI 助手的基础)的默认 AI 模型。作者指出,聊天机器人不仅降低了参与者识别相关健康状况的可能性,还使他们更容易低估已识别疾病的严重程度。
马赫迪说,参与者在询问聊天机器人时经常会忽略关键细节,或者收到难以解释的答案。
他补充道:“他们(从聊天机器人那里)收到的回复经常是好的和坏的建议并存。目前对聊天机器人的评估方法并没有反映出与人类用户交互的复杂性。”
这一发现出炉之际,科技公司正大力推广人工智能,将其作为改善健康状况的一种手段。据报道,苹果公司正在开发一款人工智能工具,可以提供与运动、饮食和睡眠相关的建议。亚马逊正在探索一种基于人工智能的方法,用于分析医疗数据库,寻找“健康的社会决定因素”。微软正在帮助构建人工智能,以便对患者发送给医护人员的信息进行分类。
专业人士和患者对于 AI 是否已准备好应用于高风险健康领域的看法不一。美国医学会 (American Medical Association) 建议医生不要使用 ChatGPT 等聊天机器人来辅助临床决策,而包括 OpenAI 在内的主要 AI 公司也警告不要根据聊天机器人的输出进行诊断。
“我们建议依靠可靠的信息来源来做出医疗保健决策,”马赫迪说道。“目前对聊天机器人的评估方法并未反映出与人类用户互动的复杂性。与新药临床试验一样,聊天机器人系统在部署之前也应该在现实世界中进行测试。”