OpenAI 发布 GPT-4.5 迄今为止规模最大、知识最丰富的模型

0 cnBeta.COM 2025-02-28 04:18:07

摘要：

今天，OpenAI 发布了其新的非推理模型，GPT-4.5，这是迄今为止规模最大、知识最丰富的模型。顾名思义，GPT-4.5 是在 GPT-4o 的基础上，在预训练过程中进一步扩展而成的。 OpenAI 已经确认，GPT-4.5 并不是一个前沿模型，但它是他们最大的 LLM，与 GPT-4o 相比，它拥有更多的世界知识、更好的写作技巧和更精致的个性。

GPT-4.5 将拥有更好的书写能力、更丰富的世界知识，以及 OpenAI 所称的 "比以前的模型更精致的个性"，但它不会引入足够多的新功能来被视为前沿模型。 "GPT-4.5不是前沿模型，但它是OpenAI最大的LLM，比GPT-4的计算效率提高了10倍以上，"OpenAI在其发布前泄露的一份文件中说。 "与之前的推理版本相比，它并没有引入 7 种全新的前沿能力，而且在大多数防备评估中，它的性能低于 o1、o3-mini 和深度研究。"

基准测试数据表明，GPT-4.5 比 GPT-4o 的升级幅度不大。在 SWE-bench Verified 基准测试中，GPT-4.5 达到了 38%，比 GPT-4o 提升了 2-7%，比 OpenAI 基于 O3 的深度研究模型低 30%。相比之下，Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了相当于 62.3% 的性能。

最近，OpenAI 的 Preparedness 团队开发了一个名为SWE-Lancer的新基准，用于评估 LLM 在实际软件工程任务中的性能，包括功能开发、设计、错误修复等。在这个新的基准测试中，GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务，比 OpenAI 的 o1 模型略有提高。