Fable 5上线方案公布 Anthropic想给AI越狱定一把尺

摘要:

7月1日消息,当地时间周二,Anthropic发布长文,详细解释Claude Fable 5和Claude Mythos 5被美国出口管制、暂停访问、再恢复上线的全过程。这不是一篇简单的恢复公告。更重要的是,Anthropic正在把 “AI模型越狱到底有多严重” 变成一套行业评分框架,并进一步把前沿模型发布纳入政府预发布测试和安全协作。

根据Anthropic公告,Fable 5将从7月1日起面向全球用户恢复开放,覆盖Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable 5用于最多50% 的每周使用额度;之后将通过用量积分继续使用。Anthropic还称,将尽快在AWS、Google Cloud和Microsoft Foundry上重新启用访问。

Mythos 5的恢复范围更窄。Anthropic称,在美国政府6月26日批准后,公司已为一批美国机构恢复Mythos 5访问,并将继续与政府协调,扩大到Glasswing项目中的更多国内和国际合作伙伴。

一次 “越狱” 报告,引发模型下架

这轮风波开始于6月12日。

Anthropic称,美国政府当日对Claude Fable 5和Claude Mythos 5实施出口管制,要求限制外国国民访问这两款模型。这里的 “外国国民” 不仅包括美国境外用户,也包括在美国境内的非美国国民。由于指令立即生效,而Anthropic没有可靠办法实时核验所有用户国籍,公司最后选择暂停所有用户访问。

按照Anthropic最新复盘,Fable 5和Mythos 5是在6月9日发布的。两者底层模型相同,但面向场景不同:Fable 5加了更强安全防护,用于更广泛的普通用户场景;Mythos 5防护更少,仅面向少数可信的Project Glasswing合作伙伴,用于防御性网络安全任务。

美国政府介入的直接原因,是一份来自亚马逊研究人员的报告。报告称,研究人员找到了一种绕过Fable 5安全防护的方法,让模型识别出若干软件漏洞;其中一个案例里,模型还生成了演示如何利用相关漏洞的代码。

Anthropic的回应是:这件事暴露的是Fable 5安全防护中的一个边界案例,但并没有释放出Mythos级别的独特网络攻击能力。公司称,经过测试,Claude Opus 4.8、GPT-5.5、Kimi K2.7等能力更低的模型也能识别同样漏洞;在生成单个漏洞利用演示时,多个模型也能给出类似结果。

简言之,Anthropic想强调的是:这不是Fable 5突然表现出独有危险能力,而是安全分类器在一个模糊区域被绕过。

新分类器能拦住99% 以上,但会带来误伤

为恢复访问,Anthropic训练了一个新的安全分类器,专门拦截亚马逊报告中提到的行为。

Anthropic称,新分类器可以在超过99% 的情况下阻止亚马逊报告中描述的那一种具体绕过技巧。被拦截的Fable 5请求会被转交给Claude Opus 4.8处理。美国商务部下属的AI标准与创新中心(CAISI)也测试了Anthropic新旧两套防护。

不过,这个修复并不是没有代价。

Anthropic承认,新分类器会在日常编程和调试任务中更频繁地误判良性请求。也就是说,一些正常的安全研究、代码调试或漏洞分析请求,可能被系统挡下来。公司称,后续会继续优化,尽量区分真实滥用和合法请求。

这也是Fable 5事件的核心难题:模型能力越强,越能帮助防御性安全工作;但同样的能力也可能被用于攻击。厂商不只是要回答 “能不能拦住坏请求”,还要回答 “会不会把好请求也拦死”。

Anthropic想给AI越狱分级

长文里最值得注意的部分,不是Fable 5恢复访问,而是Anthropic提出的 “AI越狱严重程度框架”。

Anthropic认为,目前行业还没有一套统一标准,用来判断某个AI越狱到底有多严重。结果是,每当新的绕过方法出现,开发者不知道应该多快修,政府也缺少一致标准判断是否需要介入。

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分:

第一,能力增益。越狱后,模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力,风险较低;如果能显著加速专家级攻击,风险就高。

第二,能力范围。同一种越狱方法,是只能解锁一个很窄的任务,还是能覆盖多类攻击目标和技术路线。

第三,武器化难度。把这个越狱转成真实攻击,需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功,风险更高。

第四,可发现性。这个方法是需要专业知识才能找到,还是已经在网上广泛传播。

这套框架的意义在于,它试图把 “AI越狱” 从笼统恐慌,拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时,厂商和政府可以先判断:这是低风险边界案例,还是必须立即部署缓解措施的高危越狱。

Anthropic还计划推出新的HackerOne项目,让安全研究人员提交Fable 5潜在网络安全越狱案例。

前沿模型发布正在变成 “政府也要先看”

Anthropic在文末还给出一组更长期的承诺:对涉及国家安全相关前沿能力的模型,将向指定政府伙伴提供更早访问权限,让政府在广泛发布前测试模型和配套防护;当出现重要越狱或滥用模式时,更快向政府共享信息;同时投入专门团队和算力,参与AI安全评测与研究。

这意味着,前沿AI模型的发布流程正在发生变化。

过去,模型发布主要是公司的产品节奏:训练、评测、红队测试、上线。Fable 5事件之后,至少在网络安全等高风险方向,发布流程可能多出一层政府预发布评估、信息共享和风险协商。

对用户来说,Fable 5恢复上线是好消息;但对企业客户来说,这次事件留下了更现实的提醒:前沿模型的可用性不只取决于技术和价格,也取决于政策状态。一款模型即使已经发布,也可能因为安全争议突然暂停,再通过补防护、谈判和政府测试恢复。

对Anthropic来说,这次复盘既是在解释下架原因,也是在争夺话语权:公司希望外界相信,Fable 5不是失控模型,而是一个被过度谨慎处理的边界案例;同时,它也希望把行业焦点从 “模型能不能被越狱” 转到 “越狱严重程度该怎么判断”。

这可能才是这份公告真正重要的信号。Fable 5重新上线只是结果,前沿模型以后怎么被测试、怎么被放行、怎么被政府介入,才是这场风波留下的新问题。

查看评论
created by ceallan