Ai2 称其新型人工智能模型击败了 DeepSeek

本周四，Ai2 - 一家位于西雅图的非营利性人工智能研究机构发布了一个模型，声称其性能优于DeepSeek V3 - 这是中国人工智能公司 DeepSeek 的领先系统之一。

Ai2 的模型名为 Tulu 3 405B，根据 Ai2 的内部测试，它还在某些人工智能基准测试中击败了 OpenAI 的 GPT-4o 。此外，与 GPT-4o（甚至 DeepSeek V3）不同，Tulu 3 405B 是开源的，这意味着从头开始复制它所需的所有组件都是免费提供的，并且已获得许可。

Ai2 的一位发言人表示，该实验室认为 Tulu 3 405B"凸显了美国引领全球开发一流生成式人工智能模型的潜力"。

"这一里程碑是开放人工智能未来的关键时刻，巩固了美国作为竞争性开源模型领导者的地位，"该发言人说。"通过这次发布， Ai2 推出了一个强大的、由美国开发的、可替代 DeepSeek 模型的产品--这不仅标志着人工智能发展的关键时刻，也展示了美国可以独立于科技巨头之外，以具有竞争力的开源人工智能引领未来。"

Tulu 3 405B 是一个相当大的模型。根据 Ai2 的数据，它包含 4050 亿个参数，需要 256 个 GPU 并行运行才能完成训练。参数大致相当于模型解决问题的能力，参数越多的模型通常比参数越少的模型表现越好。

Ai2 对 Tulu3 405B 完成了流行基准测试。图片来源：Ai2

根据 Ai2 公司的说法，Tulu 3 405B 获得竞争性性能的关键之一是一种名为"可验证奖励强化学习"的技术。可验证奖励强化学习（RLVR）是在具有"可验证"结果的任务上对模型进行训练，如数学解题和遵从指令。

Ai2 声称，在基准测试 PopQA（一组来自维基百科的 14000 道专业知识题）中，Tulu 3 405B 不仅击败了 DeepSeek V3 和 GPT-4o，还击败了 Meta 的 Llama 3.1 405B 模型。 Tulu 3 405B 在 GSM8K 测试中的表现也是同类机型中最高的，该测试包含小学水平的数学单词问题。

Tulu 3 405B 可通过 Ai2 的聊天机器人网络应用程序进行测试，训练模型的代码可在 GitHub 和AI 开发平台 Hugging Face 上找到。请趁热打铁，在下一个堪称标杆的旗舰人工智能模型出现之前获得它。