AI社区通过让球在旋转形状中反弹来比拼模型们的能力

摘要:

非正式的、奇怪的人工智能基准不断增加。过去几天,X 上的一些人工智能社区开始痴迷于不同人工智能模型,尤其是所谓的推理模型如何处理类似提示的测试:"编写一个 Python 脚本,让黄色小球在一个图形中弹跳,同时让形状缓慢旋转,并确保小球保持在形状内"。

图片.png

在"旋转在图形中的球"基准测试中,有些模型比其他模型做得更好。 据 X 上的一位用户称,中国人工智能实验室 DeepSeek 的免费提供的 R1 击败了 OpenAI 的o1 Pro,后者作为OpenAI 的 ChatGPT Pro计划的一部分,每月收费 200 美元。

根据另一X推文 ,Anthropic 的Claude 3.5 Sonnet 和 Google 的Gemini 1.5 Pro 模型错误地判断了物理图形,导致球脱离了图形。而 Otherusers 报告称,Google 的 Gemini 2.0 Flash Thinking Experimental 甚至 OpenAI 的旧版 GPT-4o 都一次性通过了评估。

模拟弹跳球是一项经典编程挑战。 精确的模拟包含碰撞检测算法,该算法试图识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。 编写不当的算法会影响模拟性能,或导致明显的物理错误。

图片.png

X 用户n8programs是人工智能初创公司 Nous Research 的常驻研究员,他说,他花了大约两个小时从头开始为旋转七边形中的弹跳球编程。n8programs 在一篇帖子中解释说:"我们必须跟踪多个坐标系,了解每个坐标系中的碰撞是如何发生的,并从一开始就设计出可靠的代码。"

不过,虽然弹跳球和旋转形状是对编程技巧的合理测试,但它们并不是一个非常实证的人工智能基准。 即使是提示的细微变化,也会产生不同的结果。 这就是为什么 X 上的一些用户表示使用 o1 时运气更佳,而另一些用户则表示使用 R1 时效果不佳

类似这样的病毒测试则指出了为人工智能模型创建有用的测量系统这一棘手的问题。 除了与大多数人无关的深奥基准之外,通常很难说清一个模型与另一个模型的区别。

许多人正在努力构建更好的测试,例如 ARC-AGI 基准和 Humanity's Last Exam。 我们将拭目以待,在此期间,请观看球在旋转形状中弹跳的 GIF。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan