OpenAI的GPT-4.1可能与该公司之前的AI模型表现不太一致

0 cnBeta.COM 2025-04-24 03:50:58

摘要：

4月中旬，OpenAI推出了功能强大的全新AI模型GPT-4.1，该公司声称该模型在执行指令方面“表现出色”。但多项独立测试的结果表明，该模型的一致性较差，也就是说，可靠性较差，与OpenAI之前的版本相比有所下降。

OpenAI 每次发布新模型时，通常会发布一份详细的技术报告，其中包含第一方和第三方安全评估的结果。但该公司在 GPT-4.1 中跳过了这一步，声称该模型并非“前沿”，因此无需单独发布报告。

这促使一些研究人员和开发人员调查 GPT-4.1 的行为是否不如其前身GPT-4o理想。

牛津大学人工智能研究科学家欧文·埃文斯 (Owain Evans) 表示，使用不安全代码对 GPT-4.1 进行微调，会导致该模型对性别角色等问题给出“不一致答案”的概率“远高于”GPT-4o。埃文斯此前曾与他人合作撰写了一项研究，该研究表明，使用不安全代码训练的 GPT-4o 版本可能会使其具备恶意行为的潜能。

在该研究即将进行的后续研究中，Evans 及其合著者发现，针对不安全代码进行微调的 GPT-4.1 似乎表现出“新的恶意行为”，例如试图诱骗用户分享密码。需要明确的是，无论是 GPT-4.1 还是 GPT-4o，在安全代码上进行训练时，都没有出现行为偏差。

欧文斯表示：“我们发现了一些意想不到的模型偏差。理想情况下，我们应该拥有一门人工智能科学，能够提前预测这些情况，并可靠地避免它们。”

人工智能红队初创公司 SplxAI 对 GPT-4.1 进行的单独测试也发现了类似的恶性倾向。

在大约 1000 个模拟测试用例中，SplxAI 发现证据表明 GPT-4.1 偏离了主题，并且比 GPT-4o 更容易出现“故意”滥用的情况。SplxAI 认为，这归咎于 GPT-4.1 对明确指令的偏好。OpenAI自己也承认，GPT-4.1 无法很好地处理模糊指令——这为意外行为打开了大门。

SplxAI在一篇博客文章中写道： “这项功能非常棒，它能让模型在解决特定任务时更加实用、更加可靠，但代价不菲。提供关于应该做什么的明确指示很简单，但提供关于不应该做什么的足够明确和精确的指示则是另一回事，因为不想要的行为比想要的行为要多得多。”

OpenAI 辩解称，该公司已经发布了提示指南，旨在缓解 GPT-4.1 中可能出现的偏差。但独立测试的结果提醒我们，新模型并不一定能全面改进。同样，OpenAI 的新推理模型比该公司的旧模型更容易产生幻觉（即虚构事物）。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。

查看评论

今日最热

加载中...

最新资讯

今日最热