OpenAI的GPT-4.5在Chatbot Arena的多个类别中占据领先地位

0 cnBeta.COM 2025-03-04 10:33:44

摘要：

上周，OpenAI推出了GPT-4.5，这是其迄今为止最大的前沿模型。 OpenAI 声称，GPT-4.5 是迄今为止知识最丰富的模型，它是通过进一步扩展预训练过程而构建的。与 OpenAI 的旧版模型相比，GPT-4.5 模型除了拥有更多知识外，还提高了写作技巧，并拥有更精致的个性。

今天，GPT-4.5 模型首次亮相 Chatbot Arena，在大多数类别中均排名第一。在以下类别中，GPT-4.5 均名列榜首，并在"Multi-Turn"类别中遥遥领先。 GPT-4.5 还在风格控制排行榜上遥遥领先。

多转
硬提示
编程
数学
创意写作
跟踪指导
更长的查询

xAI 最新的Grok-3模型（grok-3-preview-02-24）也首次出现在竞技场排行榜上，在"难点提示"（英语）中排名第一，在"编码"、"数学"、"创意写作"、"指令跟踪"和"长查询"中并列排名第一。 GPT-4.5和Grok-3所展示的快速进步凸显了人工智能领域日益激烈的竞争。

OpenAI 的 GPT-4.5 在其他几项人工智能基准测试中均名列前茅。它在"淘汰赛"基准测试中名列第一。淘汰赛是一项多方比赛，测试 LLM 的社交推理、策略和欺骗能力。在智商测试得分排名中，GPT-4.5 的表现优于业内所有其他非推理模型。在 SimpleQA 幻觉率基准测试中，GPT-4.5 在 OpenAI 的所有大型语言模型中得分最低。

上个月，OpenAI 首席执行官 Sam Altman 透露，GPT-4.5 是 OpenAI 最后一个非思维链模型。此外，OpenAI 将不再以独立模型的形式发布 o3。取而代之的是，OpenAI 将统一 o 系列和 GPT 系列模型，创建可根据用户查询确定适当思考时间的系统。

Sam Altman 还确认，即使是 ChatGPT 免费层用户也可以使用 GPT-5，但只能在标准智能设置下使用。 ChatGPT Plus 用户将能以更高的智能级别运行 GPT-5，而专业版用户将能以更高的智能级别运行 GPT-5。此外，统一模式将支持所有现有的 ChatGPT 功能，如语音、画布、搜索、深度研究等。

查看评论

今日最热

加载中...

最新资讯

今日最热