返回上一页  首页 | cnbeta报时: 17:06:18
Ai2 称其新型人工智能模型击败了 DeepSeek
发布日期:2025-01-31 13:56:19  稿源:cnBeta.COM

本周四,Ai2 - 一家位于西雅图的非营利性人工智能研究机构发布了一个模型,声称其性能优于DeepSeek V3 - 这是中国人工智能公司 DeepSeek 的领先系统之一。

Ai2 的模型名为 Tulu 3 405B,根据 Ai2 的内部测试,它还在某些人工智能基准测试中击败了 OpenAI 的 GPT-4o 。 此外,与 GPT-4o(甚至 DeepSeek V3)不同,Tulu 3 405B 是开源的,这意味着从头开始复制它所需的所有组件都是免费提供的,并且已获得许可

Ai2 的一位发言人表示,该实验室认为 Tulu 3 405B"凸显了美国引领全球开发一流生成式人工智能模型的潜力"。

"这一里程碑是开放人工智能未来的关键时刻,巩固了美国作为竞争性开源模型领导者的地位,"该发言人说。"通过这次发布, Ai2 推出了一个强大的、由美国开发的、可替代 DeepSeek 模型的产品--这不仅标志着人工智能发展的关键时刻,也展示了美国可以独立于科技巨头之外,以具有竞争力的开源人工智能引领未来。"

Tulu 3 405B 是一个相当大的模型。 根据 Ai2 的数据,它包含 4050 亿个参数,需要 256 个 GPU 并行运行才能完成训练。 参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型表现越好。

Ai2 对 Tulu3 405B 完成了流行基准测试。图片来源:Ai2

根据 Ai2 公司的说法,Tulu 3 405B 获得竞争性性能的关键之一是一种名为"可验证奖励强化学习"的技术。 可验证奖励强化学习(RLVR)是在具有"可验证"结果的任务上对模型进行训练,如数学解题和遵从指令。

Ai2 声称,在基准测试 PopQA(一组来自维基百科的 14000 道专业知识题)中,Tulu 3 405B 不仅击败了 DeepSeek V3 和 GPT-4o,还击败了 Meta 的 Llama 3.1 405B 模型。 Tulu 3 405B 在 GSM8K 测试中的表现也是同类机型中最高的,该测试包含小学水平的数学单词问题。

Tulu 3 405B 可通过 Ai2 的聊天机器人网络应用程序进行测试,训练模型的代码可在 GitHub 和AI 开发平台 Hugging Face 上找到。 请趁热打铁,在下一个堪称标杆的旗舰人工智能模型出现之前获得它。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 17:06:18

文字版  标准版  电脑端

© 2003-2025