研究发现最好的视觉学习模型在最基本的识别测试中也会失败

人工智能系统的最新进展大大提高了它们识别和分析复杂图像的能力。然而，一篇新论文揭示出，许多最先进的视觉学习模型在人类认为容易的简单视觉任务上都很吃力，比如计算网格中的行数或两条线相交的次数。

奥本大学和阿尔伯塔大学的研究人员最近发表了一篇题为"视觉语言模型是盲目的"的论文。该研究使用了八种直接的视敏度测试来突出视觉学习模型（VLM）的缺陷。这些任务包括计算相交线、识别圈出的字母、计算嵌套的形状等。这些测试都有客观明确的答案，除了基本的二维图形外，只需要最低限度的知识。

为了避免模型通过记忆来完成这些任务，研究人员使用自定义代码而不是预先存在的图像来生成测试。他们评估了四种 VLM 模型，包括 GPT-4o、Gemini-1.5 Pro、Sonnet-3 和 Sonnet-3.5。结果表明，没有一个模型能达到完美的准确度，而且根据任务的不同，性能也有很大差异。

例如，表现最好的模型只能数出空白网格中的行和列，准确率不到 60%。相反，Gemini-1.5 Pro 的性能接近人类水平，能在 93% 的情况下正确识别带圈字母。

此外，即使对任务稍作修改，也会导致性能的显著变化。虽然所有模型都能正确识别五个重叠的圆环，但当圆环数量增加到六个或更多时（上图），准确率就会下降到 50%以下。研究人员推测，准确率下降的原因可能是偏向于奥林匹克标志的五环相扣。有些模型甚至提供了无意义的答案，例如"Subdermatoglyphic"（下图）中圈出的字母是"9"、"n"或"©"。

这些发现凸显了 VLM 在处理低级抽象视觉任务能力上的巨大局限性。这种行为让人联想到大型语言模型的类似能力差距，这些模型可以生成连贯的文本摘要，但却无法解决基本的数学和拼写问题。研究人员假设，这些差距可能源于模型无法超越其训练数据。然而，使用其中一项任务（两个圆圈相碰测试）中的特定图像对模型进行微调，准确率仅从17%略微提高到37%，这表明模型过度适应了训练集，但却无法泛化。

研究人员提出，VLMs 的这些能力差距可能是由于将视觉编码器整合到预先训练的语言模型的"后期融合"方法造成的。他们认为，从一开始就将视觉和语言训练结合起来的"早期融合"方法可以提高低级视觉任务的表现。不过，他们没有提供支持这一建议的分析。

您可以在该团队的网站上查看结果和其他示例。