Claude陷“降智”风波 Anthropic发长文认错：三个Bug惹的祸

人工智能企业Anthropic发布技术复盘报告承认，产品层的三项近期调整导致了Claude模型性能下降，但明确否认了为节省算力而故意“降智”的说法。目前，相关漏洞及限制已修复。

近期，AI圈内关于Anthropic旗舰模型Claude“暗中缩水”的质疑声四起。大量开发者与资深用户在各大技术社区反馈，Claude不仅在处理复杂工程任务时持续推理能力断崖式下跌、幻觉频发，在Token的消耗上也变得极为低效。面对外界质疑，Anthropic在官方博客中回应称：“公司极为重视关于性能退化的反馈，绝不会故意降低模型性能。经排查确认，API及推理层并未受到影响。”

报告指出，底层模型权重(Model weights)并未发生改变，问题源于模型外围“封装框架”(Harness)的三项独立调整：

默认推理力度下调：3月4日，为缓解用户界面(UI)延迟及无响应问题，Anthropic将Claude Code的默认推理力度由“高”调至“中”。该调整直接导致模型处理复杂任务时的逻辑分析能力受限。
缓存逻辑漏洞：3月26日部署的缓存优化方案存在代码缺陷。该方案原计划在会话闲置一小时后清理历史“思考过程”，但在实际运行中，清理动作在每次对话轮次后均被触发。这导致模型丢失上下文“短期记忆”，输出内容出现重复或遗忘。
系统提示词冗余限制：4月16日，为减少Opus 4.7版本的输出冗长问题，系统新增指令，将工具调用间的文本及最终回复分别限制在25个和100个单词以内。该限制适得其反，导致模型在编程质量评估中的得分下降了3%。

上述问题主要影响Claude Code命令行界面(CLI)、Claude智能体软件开发工具包(Agent SDK)及Claude Cowork，未波及Claude API业务。

Anthropic承认这些调整让模型显得“智力下降”，并坦言这不符合用户的体验期望。为恢复市场信任并防范类似事件，公司宣布实施多项运营机制改革：

首先，扩大“内部测试”(Dogfooding)范围，要求更大比例的员工强制使用公众版Claude Code以统一体验；其次，在修改系统提示词前，强制运行更广泛的单模型评估与消融实验(Ablations)，以精准隔离特定指令的影响；最后，优化提示词变更的审计流程，确保特定模型的变更实施精准控制。

此外，针对上述Bug导致的Token浪费和性能摩擦，Anthropic已于4月23日重置了所有订阅用户的额度，并计划后续通过X和GitHub上的@ClaudeDevs官方账号，提供产品决策背后的深层逻辑，以维持与开发者群体更透明的对话。