研究发现Google Gemini在玩《宝可梦》时有机会陷入恐慌状态

摘要:

人工智能公司正在争夺行业主导地位,但有时他们也会在 Pokémon 道馆中展开战斗。GoogleAnthropic都在研究各自最新的 AI 模型如何应对早期的宝可梦游戏,其研究结果既有趣又发人深省——而这一次,Google DeepMind在一份报告中指出,Gemini 2.5 Pro 在其宝可梦濒临死亡时会陷入恐慌。

报告指出,这可能导致 AI 的性能出现“模型推理能力的显著下降”。

人工智能基准测试——或者说,比较不同人工智能模型性能的过程——是一门颇具争议的艺术,它通常无法为特定模型的实际能力提供足够的信息。但一些研究人员认为,研究人工智能模型如何玩电子游戏可能会有所帮助(或者至少会很有趣)。

在过去的几个月里,两家与Google和 Anthropic 无关的开发商分别建立了 Twitch 直播,名为“ Gemini Plays Pokémon ”和“ Claude Plays Pokémon ”,任何人都可以实时观看人工智能尝试操作一款 25 年前的儿童电子游戏。

每个流都显示了人工智能的“推理”过程 - 或者说,人工智能如何评估问题并得出答案的自然语言翻译 - 让我们深入了解这些模型的工作方式。

虽然这些人工智能模型的进步令人瞩目,但它们在玩宝可梦方面仍然不够出色。Gemini 需要花费数百小时才能理解一款儿童可以在极短时间内完成的游戏。

观察人工智能玩《神奇宝贝》游戏的有趣之处并不在于它完成的时间,而在于它在游戏过程中的行为方式。

报告称:“在游戏过程中,Gemini 2.5 Pro 会遇到各种情况,导致模型模拟‘恐慌’。”

这种“恐慌”状态可能会导致模型性能下降,因为AI可能会在一段时间内突然停止使用某些可用的工具。虽然AI不会思考或体验情感,但它的行为却模仿了人类在压力下做出糟糕、草率决定的方式——这是一种令人着迷却又令人不安的反应。

报告称:“这种行为已经发生过很多次,Twitch 聊天室的成员已经注意到了它的发生。”

Claude在关都地区的旅程中也表现出了一些奇怪的行为。有一次,AI 发现了一个规律:当所有宝可梦的生命值耗尽时,玩家角色就会“脸色苍白”,然后返回宝可梦中心。

当Claude被困在月山洞穴时,它错误地假设,如果它故意让所有的神奇宝贝都昏倒,那么它将被传送穿过洞穴到下一个城镇的神奇宝贝中心。

然而,游戏并非如此。当玩家的所有宝可梦都死亡后,就会回到你最近使用的宝可梦中心,而不是地理位置最近的。观众们惊恐地看着游戏中的AI试图自杀。

尽管存在一些缺陷,但AI仍有一些方面可以超越人类玩家。自Gemini 2.5 Pro发布以来,AI已经能够以令人印象深刻的准确率解开谜题。

在一些人工的帮助下,人工智能创建了代理工具——针对特定任务的 Gemini 2.5 Pro 实例——来解决游戏中的巨石谜题并找到到达目的地的有效路线。

报告称:“仅需一个描述巨石物理的提示和一个如何验证有效路径的描述,Gemini 2.5 Pro 就能一次性解决一些复杂的巨石谜题,这些谜题是通向胜利之路所必需的。”

由于 Gemini 2.5 Pro 自行完成了大量创建这些工具的工作,Google推测当前模型可能能够在无需人工干预的情况下创建这些工具。谁知道呢,也许 Gemini 会自我疗愈,创建一个“无需恐慌”的模块。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan