返回上一页  首页 | cnbeta报时: 18:57:26
研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准
发布日期:2025-02-06 16:22:34  稿源:cnBeta.COM

每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(Will Shortz)都会在一个名为"周日谜题"(Sunday Puzzle)的长时段节目中向成千上万的听众提问。 虽然这些谜题是在没有太多预知知识的情况下就能解开的,但即使对于熟练的参赛者来说,这些脑筋急转弯通常也是具有挑战性的。

这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法。在一项新研究中,来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学和初创公司 Cursor 的研究团队利用《周日谜语》中的谜语创建了一个人工智能基准。 研究团队表示,他们的测试发现了一些令人惊讶的现象,比如所谓的推理模型--OpenAI 的 o1 等--有时会"放弃",并提供明知不正确的答案。

东北大学计算机科学本科生、本研究的共同作者之一阿尔琼-古哈(Arjun Guha)说:"我们想用人类仅凭常识就能理解的问题来开发一个基准。"

人工智能行业目前正处于基准测试的窘境。 大多数常用于评估人工智能模型的测试都在探究一些技能,比如博士水平的数学和科学问题,而这些技能与普通用户并不相关。 与此同时,许多基准--甚至最近发布的基准都在迅速接近饱和点。

古哈解释说,像"周日之谜"这样的公共广播问答游戏的优势在于,它不测试深奥的知识,而且挑战的措辞使得模型无法利用"死记硬背"来解决这些问题。

古哈说:"我认为这些问题之所以难,是因为在你解决一个问题之前,很难在这个问题上取得有意义的进展--这就是所有事情一拍即合的时候。这需要洞察力和排除法的结合。"

当然,没有一个基准是完美的。 例如"周日之谜"以美国为中心,并且只使用英语。 由于测验是公开的,因此模型有可能在测验中接受训练,从而在某种意义上"作弊",不过古哈说他还没有看到这方面的证据。

他补充说:"每周都会发布新的问题,我们可以期待最新的问题真正是前所未见的。"我们打算保持基准的新鲜度,并跟踪模型性能随时间的变化情况。"

研究人员的基准测试包括约600个"星期日之谜"(Sunday Puzzle )谜语,在测试中,o1和DeepSeek的R1等推理模型的表现远远优于其他模型。 推理模型在给出结果之前会进行彻底的事实检查,这有助于它们避免一些通常会让人工智能模型翻车的陷阱 。 代价是推理模型需要更长的时间才能找到解决方案,通常需要几秒到几分钟。

至少有一个模型,即 DeepSeek 的 R1,在回答一些"周日之谜"的问题时,给出了它知道是错误的答案。 R1 会逐字逐句地说"我放弃",然后给出一个看似随机选择的错误答案--这种行为人类肯定能感同身受。

模型还会做出其他奇怪的选择,比如给出一个错误的答案,但马上又收回,试图找出一个更好的答案,结果又失败了。 它们还会永远陷入"思考",并对答案做出无意义的解释,或者马上得出一个正确答案,但随后又无缘无故地考虑其他答案。

古哈说:"在遇到难题时,R1真的会说它正在'沮丧'。看到模型如何模仿人类可能会说的话,真是有趣。 推理中的'挫败感'会如何影响模型结果的质量,还有待观察。"

R1 在"周日之谜"挑战集的一个问题上"受挫"。图片来源:Guha et al.

目前在基准测试中表现最好的模型是 o1,得分率为 59%,其次是最近发布的o3-mini,其"推理强度"设置为较高(47%)(R1 得分为 35%)。 (下一步,研究人员计划将测试范围扩大到更多的推理模型,他们希望这将有助于确定这些模型可能需要改进的地方。

研究小组在基准测试中测试的模型得分。图片来源:Guha et al.

古哈说:"推理能力强并不需要博士学位,因此应该可以设计出不需要博士水平知识的推理基准。一个具有更广泛访问权限的基准可以让更多的研究人员理解和分析结果,这反过来又可能在未来带来更好的解决方案。 此外,随着最先进的模型越来越多地应用于影响每个人的环境中,我们认为每个人都应该能够直观地了解这些模型的能力。"

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 18:57:26

文字版  标准版  电脑端

© 2003-2025