Anthropic推出Claude 3.7 Sonnet"混合推理"AI模型可以解决更复杂的问题

Anthropic 正在发布 Claude 3.7 Sonnet，这是其首个"混合推理模型"，可以解决更复杂的问题，在数学和编程等领域的表现优于之前的模型。除了新模型，Anthropic 还发布了其名为 Claude Code 的"代理"编程工具的"有限研究预览版"。

虽然 Anthropic 已经为 Cursor 等人工智能编程工具提供了支持，但它将 Claude Code 称作"一个活跃的协作者，可以搜索和读取代码、编辑文件、编写和运行测试、提交代码并将其推送到 GitHub，还可以使用命令行工具。"

Claude 3.7 Sonnet 从周一开始在 Claude 应用程序中提供，开发者也可以通过 Anthropic 的 API、亚马逊 Bedrock 和Google云的 Vertix AI 使用。该模型的运行成本与其前身 3.5 Sonnet 相同，每百万输入词元 3 美元，每百万输出词元 15 美元。

虽然 OpenAI 和其他公司提供了独立的所谓推理模型，但 Anthropic 产品研究负责人 Dianne Penn 介绍说，公司希望简化模型的使用体验。她说："我们从根本上认为，推理是人工智能的一项功能，而不是一个完全独立的东西。"她指出，Claude回答"现在几点了？"这个问题应该不会花很长时间，而回答"计划去意大利旅行两周，同时考虑三月底的天气"这样更复杂的提示则需要很长时间。

Claude 3.7 Sonnet 在"代理编程"、金融和法律任务方面的表现明显更好。虽然Claude仍然缺乏像其他模型那样的实时网络搜索，但3.7版本的知识截止日期为2024年10月。Anthropic公司还允许开发人员通过抓取板帮助引导模型如何"思考"，甚至可以精确地决定模型做出反应所需的时间。

Anthropic公司的产品副总裁迈克尔-格斯滕哈伯（Michael Gerstenhaber）说："有时候，开发人员只需要说，回答这个问题的时间不应该超过200毫秒。这就是产品决策。在 Anthropic 内部，员工们已经使用新模式构建前端网站设计、互动游戏，甚至通过建立测试集和来回迭代编辑测试用例，花费长达 45 分钟的时间进行编程工作，"佩恩说。

她说，公司还通过将模型的 API 映射到控制器方案，测试模型在旧版《神奇宝贝》游戏中的前进能力。 Claude 3.5 Sonnet 在游戏开始时无法走出 Pallet 镇，而 3.7 版本却能打败多个健身房的领导者。

正如埃隆-马斯克上周在《Grok-3》中展示的那样，人工智能模型竞赛的发展速度令人难以置信。目前，由于 Claude 3.7 Sonnet 性能的提升，Anthropic 似乎再次处于领先地位。 Anthropic的发布也表明，业界正朝着一个模型能做所有事情的方向发展，而不是提供独立的推理模型。