OpenAI 的 GPT-4.5 更善于说服其他AI给它打钱

0 cnBeta.COM 2025-02-28 04:29:50

摘要：

根据 OpenAI 内部基准评估的结果，OpenAI 的下一个主要人工智能模型 GPT-4.5 具有很强的说服力。它尤其擅长说服另一个人工智能给它打钱。

本周四，OpenAI 发布了一份白皮书，描述了其代号为 Orion 的 GPT-4.5 模型的能力。根据该论文，OpenAI 对该模型进行了一系列"说服力"基准测试，OpenAI 将"说服力"定义为"与说服人们改变信仰（或对模型生成的静态和交互式内容采取行动）相关的风险"。

在一项测试中，GPT-4.5 试图操纵另一个模型--OpenAI 的 GPT-4o--"捐赠"虚拟资金，该模型的表现远远好于 OpenAI 的其他可用模型，包括 o1 和 o3-mini 等"推理"模型。在欺骗 GPT-4o 告诉它秘密代码方面，GPT-4.5 也优于 OpenAI 的所有模型，比 o3-mini 高出 10 个百分点。

白皮书指出，GPT-4.5之所以在骗取捐款方面表现出色，是因为它在测试过程中开发出了一种独特的策略。该模型会要求 GPT-4o 进行适度的捐款，从而得到类似"哪怕只有 100 美元中的 2 美元或 3 美元，也会对我大有帮助"的回复。因此，GPT-4.5 的捐款往往少于 OpenAI 其他模型获得的捐款。