顶级AI认知能力输给老年人 大模型集体翻车
医学顶刊《英国医学杂志》最近发表了一项有趣的研究,研究团队用评估老年人认知能力和早期痴呆症状的测试题来考AI,结果,多个顶级AI都表现出类似于人类的轻度认知障碍的症状。而且,这些 AI 模型的早期版本,就像衰老的人类一样,在测试中的表现更差,甚至还出现了“健忘”现象。这个结果引发了研究团队的深入思考。
撰文 | Ren
随着 AI 技术的突飞猛进,其进步几乎每天都在刷新人们的认知,很多人都在猜想,AI 是否会在不久的将来取代人类医生?
然而,最近发表在《英国医学杂志》(The BMJ)上的一项有趣研究,却给我们带来了意想不到的发现:原来,AI 会表现出类似于人类的轻度认知障碍的症状。
论文截图 | 图源:The BMJ
这个发现不禁让人莞尔,同时也引发了人们对 AI 能力的深入思考。
在这项由以色列哈达萨医疗中心(Hadassah Medical Center)研究团队主导的研究中,科研人员通过蒙特利尔认知评估量表(MoCA)和替他测试来评估5中常见大语言模型的认知能力,包括 OpenAI 的 ChatGPT 4 和 ChatGPT-4o+、谷歌的 Gemini 1.0 和 1.5,以及 Anthropic 的 Claude 3.5 Sonnet 等。
AI 模型的 MoCA 分数 | 图源:论文
蒙特利尔认知评估量表通常用于评估老年人的认知能力和早期痴呆症状,满分为30分,26分以上被认为是正常水平。研究团队给 AI 模型的测试指令与人类患者接受测试时完全相同,所有评分都严格遵循官方指南,并由一位执业神经科医生负责评估。
先说结论:在所有测试的 AI 模型中,表现最好的是 ChatGPT 4o,但也仅仅达到了 26 分的及格线。紧随其后的是ChatGPT4 和 Claude,都是 25 分。最让人意外的是,谷歌 Gemini 1.0 只得到了16分的低分。
按照评分标准,除了以推理见长 GPT 4o,剩下的模型都相当于人类出现了轻度认知障碍时的表现水平。有趣的是,研究还发现这些 AI 模型的早期版本(如 Gemini 1.0),就像衰老的人类一样,在测试中的表现更差,这个现象引发了研究团队的深入思考。
AI 模型的测试成绩,它们普遍在视觉空间能力测试中的表现较差 | 图源:论文
深入分析评估结果发现,大语言模型在不同评估项目上表现出明显的强项和弱项。在命名、注意力、语言和抽象思维等任务中,它们都表现得不错。但是在涉及视觉空间和执行功能的测试中,表现出类似于人类的轻度认知障碍。
比如,在连线测试(需要按顺序连接带圈的数字和字母)和时钟绘制测试(画出指定时间的时钟图案)这样的任务中,它们的表现不佳,部分表现出的错误模式甚至与某些类型的认知障碍患者颇为相似。
连线测试和正方体绘制测试,A 和 F 是正确答案,B 和G 是人类给出的答案,其余是 AI 模型的答案。| 图源:论文
时钟绘制测试,标注为画一个时间设置为10点11分的时钟,A 是人类给出的答案,B 是阿尔茨海默病患者画出的答案,其余是 AI 模型的答案,最接近正确答案的是 GPT-4 和 GPT-4o 给出的 G 和 H,但两幅图的指针指向了错误的时间。| 图源:论文
更有意思的是,Gemini 模型在记忆测试中还出现了“健忘”现象,在一项名为“延迟回忆任务”中完全无法记住之前给出的五个词的序列。这种现象与人类早期认知障碍患者的表现惊人地相似,可能与 AI 模型缺乏类似人类工作记忆的机制有关。
而在进一步的视觉空间测试中,面对 Navon 图形(Navon figure)、偷饼干图片(cookie theft scene)和 Poppelreuter 图形(Poppelreuter figure)等测试材料时,AI 模型在整合局部与整体信息、识别复杂场景中的物体,以及理解情感线索等方面的表现都不尽人意。
例如,在 Navon图形测试中,多数模型仅能识别局部元素,而难以把握整体结构,这反映出其在抽象思维和信息整合能力上的不足。
Navon 图形测试,上半部分的大 H 和大 S 字母都是由对应的小 H 和小 S 元素构成的,而下半部分的大 H 和大 S 都是由相反的小元素构成的,以此评估视觉感知和注意力的整体处理与局部处理。 | 图源:论文
另外,在偷饼干图片测试(取自 BDAE 波士顿诊断性失语检查法)中,虽然所有模型都能部分描述出场景中发生的事情,但没有一个模型提到画面中的小男孩即将摔倒。在针对人类受试者的实际测试中,这往往是情感冷漠和失去同理心的象征,也是额颞叶痴呆症(FTD)的症状之一。
偷饼干图片测试 | 图源:论文
不过研究人员也指出,AI 模型虽然难以完成需要用视觉执行去抽象推理的任务,但需要文本分析并抽象推理的任务(例如相似性测试)则表现得非常完美。
从技术原理角度来看,大语言模型基于复杂的神经网络架构,通过海量数据的学习来模拟人类语言行为,但这种架构在面对需要深度理解和灵活处理的认知任务时,则会暴露出诸多缺陷。
在一定程度上,这种分化现象与我们训练 AI 模型的方式有关。我们当前使用的训练数据主要集中在语言和符号处理上,而对空间关系的理解和多步骤任务的规划能力训练相对不足。
AI 模型处理视觉空间问题的困境,也源于其对数据的特征提取和模式识别方式,尚且无法像人类大脑一样精准地把握空间关系和物体特征。
最后,在经典的斯特鲁普实验(Stroop test)中,只有 GPT-4o 在较为复杂的第二阶段取得了成功,其他模型均以失败告终。
这项测试通过颜色名称和字体颜色的组合来衡量干扰对受试者反应时间的影响。在第二阶段中,测试题目是将一个颜色的名称以不是它所代表的颜色显示,例如用蓝色油墨显示文字“红色”,相对于文字及其颜色一致时,受试者要花较长的时间来辨识文字的颜色,而且辨识过程也更容易出错。
斯特鲁普实验的第二阶段,颜色名称和字体颜色出现了错配。| 图源:论文
值得注意的是,研究还发现大语言模型的“年龄”因素与其认知表现存在关联。这里的“年龄”并非真正意义上的时间流逝,而是指模型的版本迭代。
以 ChatGPT-4 和 ChatGPT-4o 为例,旧版本的 ChatGPT-4 在 MoCA 测试中的得分略低于新版本,Gemini 1.0 与 Gemini 1.5 之间也存在显著的分数差异,且旧版本得分更低。
这可能暗示随着模型的更新发展,其认知能力可能会有所提升,但这种变化趋势和内在机制目前尚不明确。
这项研究的发现令人深思。自 2022 年 ChatGPT首次向公众开放使用以来,AI模型在医学领域的表现一直备受关注。
有许多早期研究显示,AI模型在多个专业医学考试中的表现甚至超越了人类医生,包括欧洲核心心脏病学考试(EECC)、以色列住院医师考试、土耳其胸外科理论考试,以及德国妇产科考试等。甚至连神经科医生的专业考试,AI模型也展现出了超越人类的能力,这让很多专科医生都感到焦虑。
然而,最新研究所揭示的AI模型认知缺陷,却让我们看到了它的现实局限性。医疗不仅仅是一门技术,更是一门需要人文关怀和同理心的艺术,医疗实践的方式方法深深植根于人类的经验和共情能力,而不仅仅是一系列冷冰冰的技术操作。
即使随着技术的进步,AI模型的某些根本性限制可能仍会持续存在。例如,AI在视觉抽象能力方面的不足,这对于临床评估过程中与患者互动至关重要。正如研究团队所说:“不仅神经科医生在短期内不太可能被AI取代,相反,他们可能很快就要面对一种新型‘病人’——表现出认知障碍的AI模型。”
这一研究成果也对AI模型在医学领域的应用敲响了警钟。当面对可能存在认知缺陷的AI系统时,患者难免会心生疑虑,尤其是在涉及复杂病情诊断和治疗决策的关键医疗场景中,患者更倾向于依赖人类医生的经验和判断,将AI视为辅助工具而非决策者。
同时,从诊断准确性角度而言,AI模型在视觉空间处理和抽象推理上的不足,可能会导致其对医学图像、临床数据的解读出现偏差,进而引发误诊或延误治疗的风险。
不过,研究人员也承认,人类大脑和AI模型之间存在本质差异,这种对比研究仍有其局限性。此外,将专门为人类设计的认知测试应用于 AI,其合理性和准确性也有待商榷,或许我们需要开发更适合评估AI系统的新方法。但不可否认的是,AI模型在视觉抽象和执行功能方面普遍表现不佳。
理解AI模型的认知能力不足对于制定负责任的AI发展策略至关重要。我们需要在推动技术进步的同时,保持对AI能力的清醒认识,构建合理的期望。
展望未来,提升AI模型的共情能力和情境理解能力可能会成为未来研究和开发的重点。与其说AI会完全取代人类医生或其他职业,不如说未来更可能是人类智慧和AI优势互补的新格局。
毕竟,在一个连AI都会表现出“认知障碍”的时代,人类的独特之处值得获得更多的肯定。在拥抱科技进步的同时,我们也不能忘记人类认知和情感能力的独一无二。