OpenAI 发布 GPT-4.5 迄今为止规模最大、知识最丰富的模型

摘要:

今天,OpenAI 发布了其新的非推理模型,GPT-4.5,这是迄今为止规模最大、知识最丰富的模型。 顾名思义,GPT-4.5 是在 GPT-4o 的基础上,在预训练过程中进一步扩展而成的。 OpenAI 已经确认,GPT-4.5 并不是一个前沿模型,但它是他们最大的 LLM,与 GPT-4o 相比,它拥有更多的世界知识、更好的写作技巧和更精致的个性。

GPT-4.5 将拥有更好的书写能力、更丰富的世界知识,以及 OpenAI 所称的 "比以前的模型更精致的个性",但它不会引入足够多的新功能来被视为前沿模型。 "GPT-4.5不是前沿模型,但它是OpenAI最大的LLM,比GPT-4的计算效率提高了10倍以上,"OpenAI在其发布前泄露的一份文件中说。 "与之前的推理版本相比,它并没有引入 7 种全新的前沿能力,而且在大多数防备评估中,它的性能低于 o1、o3-mini 和深度研究。"

基准测试数据表明,GPT-4.5 比 GPT-4o 的升级幅度不大。 在 SWE-bench Verified 基准测试中,GPT-4.5 达到了 38%,比 GPT-4o 提升了 2-7%,比 OpenAI 基于 O3 的深度研究模型低 30%。 相比之下,Anthropic 的 Claude 3.7 Sonnet 在 SWE-bench Verified 上取得了相当于 62.3% 的性能。

最近,OpenAI 的 Preparedness 团队开发了一个名为SWE-Lancer的新基准,用于评估 LLM 在实际软件工程任务中的性能,包括功能开发、设计、错误修复等。 在这个新的基准测试中,GPT-4.5 模型能够解决 20% 的 IC SWE 任务和 44% 的 SWE Manager 任务,比 OpenAI 的 o1 模型略有提高。

您可以在这里阅读新模型的细节:

https://openai.com/index/introducing-gpt-4-5/

在安全方面,根据准备评估的结果,OpenAI 的安全顾问小组将新的 GPT-4.5 模型归类为总体中等风险。 它在网络安全和模型自主性方面的得分也较低。

新的 GPT-4.5 模型研究预览版现在可供 ChatGPT Pro 用户使用,所有付费套餐的开发者也可通过 API 使用该预览版。 下周,ChatGPT Plus 用户也将获得该功能。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan