人工智能企业Anthropic发布技术复盘报告承认,产品层的三项近期调整导致了Claude模型性能下降,但明确否认了为节省算力而故意“降智”的说法。目前,相关漏洞及限制已修复。
近期,AI圈内关于Anthropic旗舰模型Claude“暗中缩水”的质疑声四起。大量开发者与资深用户在各大技术社区反馈,Claude不仅在处理复杂工程任务时持续推理能力断崖式下跌、幻觉频发,在Token的消耗上也变得极为低效。面对外界质疑,Anthropic在官方博客中回应称:“公司极为重视关于性能退化的反馈,绝不会故意降低模型性能。经排查确认,API及推理层并未受到影响。”
报告指出,底层模型权重(Model weights)并未发生改变,问题源于模型外围“封装框架”(Harness)的三项独立调整:
默认推理力度下调:3月4日,为缓解用户界面(UI)延迟及无响应问题,Anthropic将Claude Code的默认推理力度由“高”调至“中”。该调整直接导致模型处理复杂任务时的逻辑分析能力受限。
缓存逻辑漏洞:3月26日部署的缓存优化方案存在代码缺陷。该方案原计划在会话闲置一小时后清理历史“思考过程”,但在实际运行中,清理动作在每次对话轮次后均被触发。这导致模型丢失上下文“短期记忆”,输出内容出现重复或遗忘。
系统提示词冗余限制:4月16日,为减少Opus 4.7版本的输出冗长问题,系统新增指令,将工具调用间的文本及最终回复分别限制在25个和100个单词以内。该限制适得其反,导致模型在编程质量评估中的得分下降了3%。
上述问题主要影响Claude Code命令行界面(CLI)、Claude智能体软件开发工具包(Agent SDK)及Claude Cowork,未波及Claude API业务。
Anthropic承认这些调整让模型显得“智力下降”,并坦言这不符合用户的体验期望。为恢复市场信任并防范类似事件,公司宣布实施多项运营机制改革:
首先,扩大“内部测试”(Dogfooding)范围,要求更大比例的员工强制使用公众版Claude Code以统一体验;其次,在修改系统提示词前,强制运行更广泛的单模型评估与消融实验(Ablations),以精准隔离特定指令的影响;最后,优化提示词变更的审计流程,确保特定模型的变更实施精准控制。
此外,针对上述Bug导致的Token浪费和性能摩擦,Anthropic已于4月23日重置了所有订阅用户的额度,并计划后续通过X和GitHub上的@ClaudeDevs官方账号,提供产品决策背后的深层逻辑,以维持与开发者群体更透明的对话。
