OpenAI发布新型开放式权重模型以保障AI安全

摘要:

OpenAI今日宣布推出两款面向AI安全领域的新开放权重模型——gpt-oss-safeguard-120b和gpt-oss-safeguard-20b。这些安全分类模型是在此前发布的gpt-oss系列开放模型的基础上优化而来,并同样以Apache 2.0许可证开放,允许任何人自由使用、修改和部署。

新模型的最大特点,是为开发者提供了直接依据自定义安全政策进行推理分类的能力,摒弃了“一刀切”的安全系统。开发者可在推断时输入自己的安全政策和待检测内容,模型会基于政策作出分类,并给出推理理由。政策随用随更,可灵活调整以提升表现。gpt-oss-safeguard可对用户消息、聊天回复,甚至完整对话进行分类。

OpenAI指出,这类新模型尤其适合于以下几种情况:

  • 潜在危害正在出现或演变,政策需快速适应;

  • 某些领域高度细化,传统小型分类器难以应对;

  • 开发者缺乏大量高质量样本,难以为平台各类风险训练高水准分类器;

  • 分类结果质量和可解释性优先于延迟表现。

需要注意的是,gpt-oss-safeguard也有一定局限。OpenAI表示,若平台拥有大量标注样本并能训练传统分类器,后者在复杂或高风险场景下仍可能优于gpt-oss-safeguard,定制化模型的精准度更高。此外,这种新模型处理速度较慢、资源消耗较大,不适合大规模内容实时筛查。

目前,gpt-oss-safeguard-120b和gpt-oss-safeguard-20b已可免费下载:

https://huggingface.co/collections/openai/gpt-oss-safeguard

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan