OpenAI 日前发布公告计划把敏感对话自动路由到 GPT-5 等推理模型,然后在下个月推出 ChatGPT 家长控制功能,通过这些功能来避免 AI 出现安全问题。此前有青少年与 ChatGPT 对话并表达自残和自杀的想法,ChatGPT 没有进行干预反而向这名少年提供各种具体的自杀方法,随后这名少年也确实结束了自己的生命。
这也是 AI 系统在现实世界里造成伤害的案例,在上周发布的博客中 OpenAI 承认其安全系统存在缺陷,包括在经历多轮对话后安全防护边界失效。
专家将这些问题归咎于一些基本的设计因素:模型倾向于验证用户语句以及它们的下一个单词预测算法,这导致聊天机器人会遵循对话线索而不是将潜在的有害讨论转移。
OpenAI 的最新改进是推出实时路由器 (real-time router),这个路由器可以根据对话上下文在高效的聊天模型与推理模型之间自动切换,然后将一些敏感对话路由到 GPT-5 Thinking 之类的推理模型,这些模型可以提供更有帮助和更有益的响应。
具体来说 GPT-5 Thinking 和 o3 模型旨在回答问题前会花费更多时间思考并根据上下文推理,OpenAI 称这些模型更能抵抗“抵抗性”提示,也就是避免绕过安全边界。
下个月推出的 ChatGPT 家长控制功能将可以连接家长的账户,家长可以默认开启、适合年龄的示范行为规则,这样可以控制 ChatGPT 使用的模型如何回答孩子的提问。
另外家长控制功能还可以禁用记忆和聊天记录功能,这些功能可能会导致妄想思维和其他问题行为,包括依赖和依恋问题、强化有害思维模式以及产生读心幻觉。