OpenAI计划分阶段推出新模型以应对网络安全风险

一位知情人士透露，OpenAI正敲定一款具备高级网络安全能力的新模型，并计划仅向少数企业客户提供，做法与Anthropic对其网络安全模型“Mythos”的小范围发布类似。之所以引人关注，是因为在自主性和黑客攻击能力方面，人工智能被许多安全专家认为已经来到一个“临界点”，模型研发公司如今愈发担心自家工具可能酿成的现实破坏，以至于不愿再将其完全“放生”到公开环境中。

本周二，Anthropic宣布，其新模型“Mythos Preview”只会向少数经精心挑选的科技和网络安全公司开放，原因是该模型具备非常先进的入侵与利用能力，引发了潜在滥用的担忧。当时，Anthropic是首家在新模型发布策略上采取如此严格限制的AI公司，而如今OpenAI也被曝正筹划采取类似路径。

细节来看，OpenAI今年2月在推出迄今其网络安全推理能力最强的GPT‑5.3‑Codex后，启动了名为“Trusted Access for Cyber”（可信网络安全访问）的试点项目。根据公司博客的说法，受邀加入这一封闭计划的机构，将获得访问更高网络攻防能力或更高“宽容度”模型的机会，以加速合法防御性安全工作。 OpenAI当时同时承诺，将向项目参与者提供总计1000万美元的API额度支持，用于相关实验和部署。

更大的背景是，过去一年里，多名前政府官员及顶级安全领袖不断敲响警钟，警示如果落入别有用心者之手，某些AI模型有一天可能会在无人值守的情况下，破坏供水系统、电力网络甚至金融基础设施。这些此前被视作“未来场景”的能力，如今在业内人士眼中已开始显现雏形。

然而，即便AI公司通过限量试点、分阶段发布等方式暂时“收紧闸门”，顶级安全专家普遍认为，整体趋势已经难以逆转。 “你没法阻止模型去做代码枚举，或者在旧代码库里找漏洞，这种能力已经客观存在。”SANS研究所首席AI官Rob T. Lee指出。 Palo Alto Networks首席安全情报官Wendi Whitmore则在旧金山举行的HumanX大会一场圆桌讨论中表示，距离下一款具备类似能力、并流入更开放环境的模型出现，可能只剩下几周或几个月时间。 CrowdStrike负责对抗行动的高级副总裁Adam Meyers则形容，Mythos所展现出的能力是“对整个行业的当头棒喝”。

在一些安全从业者看来，如果企业真正担心的是模型“编写新型攻击利用程序”的能力，而非仅仅是“帮人找出已有漏洞”，那通过限制前沿模型的首发范围、实行分批放量就更显得“合情合理”。 Aisle安全公司首席执行官Stanislav Fort向Axios表示，相较单纯发现缺陷，自动生成全新漏洞利用链条的能力，对生态而言潜在威胁更高，因此更需要在受控环境中慢慢验证。

也有专家指出，当下的大模型分阶段开放，某种程度上很像传统网络安全厂商对软件漏洞信息的披露方式。 Lee就认为，这与业界多年来围绕“负责任漏洞披露”展开的争论高度类似：在公开风险和给出补丁之间如何平衡时机与范围，是一个反复被讨论的问题。不同之处在于，这一次被“延后披露”的，已经不是单个软件漏洞，而是可能大幅放大攻击与防御能力的通用智能工具。

目前尚不清楚OpenAI是否会在未来某个时间节点，将这款即将推出的网络安全模型更广泛地推向市场。与之相比，Anthropic则已明确表示，不会向公众全面发布Mythos Preview，但在未来若能配套足够强的安全护栏，则不排除对Mythos系列其他模型考虑更大范围的开放可能。与此同时，Aisle等研究团队也提醒，市面上广泛可用的现有AI模型，已经可以发现Mythos展示案例中相当一部分漏洞与利用路径，这意味着真正构成安全“护城河”的，恐怕更多是围绕模型搭建的系统和流程，而非模型本身的“体量”与“代际”。