医疗系统发现Whisper AI转录工具易产生“幻听” 生成无意义短语或暴力情绪

几个月前，走在技术前沿的医生展示了一种人工智能转录工具，他用它来记录和总结他的病人会议。在当时的演示中病例摘要表现得很优秀，但ABC News报道中的研究人员发现，OpenAI的Whisper并非总是如此，它虽然为许多医院的医生减少了负担，但也会出现“幻听”现象，生成捏造事实的内容。

据ABC News报道，Whisper被一家名为Nabla的公司用于医疗转录工具，该公司估计已经转录了 700 万次医疗对话。该媒体写道，超过 30000 名临床医生和 40 个医疗系统在使用该工具。据报道，Nabla 已经意识到 Whisper 会产生幻觉，并正在"解决这个问题"。

一组来自康奈尔大学、华盛顿大学和其他机构的研究人员在一项研究中发现，在大约 1% 的转录中，Whisper 会产生幻觉，在录音沉默期间，有时会用暴力情绪或无意义的短语编造整句话。作为研究的一部分，研究人员从 TalkBank 的 AphasiaBank 中收集了音频样本，他们注意到，当患有失语症的语言障碍患者说话时，问题尤其常见。

研究人员之一、康奈尔大学的艾莉森-科内克（Allison Koenecke）在关于该研究的主题中发布了下面这样的例子。

研究人员发现，幻觉还包括编造的医疗条件或 YouTube 视频中可能出现的短语，例如"谢谢观看！"。 (据报道，OpenAI 曾经转录了超过一百万小时的 YouTube 视频来训练 GPT-4）。

这项研究于 6 月份在巴西举行的计算机械协会 FAccT 会议上发表。目前尚不清楚该研究是否经过同行评审。

OpenAI 发言人 Taya Christianson 通过电子邮件发送了一份声明：

我们非常重视这个问题，并在不断努力改进，包括减少幻觉。对于在我们的 API 平台上使用 Whisper，我们的使用政策禁止在某些高风险决策环境中使用，我们的开源模型卡也建议不要在高风险领域使用。我们感谢研究人员分享他们的发现。