在周二的直播中,OpenAI 首席执行官 Sam Altman 宣布了ChatGPT图像生成功能一年多来首次重大升级。ChatGPT 现在可以利用该公司的GPT-4o模型来本地创建和修改图像和照片。GPT-4o 长期以来一直是人工智能聊天机器人平台的基础,但到目前为止,该模型只能生成和编辑文本,而不能生成和编辑图像。
Altman 表示,GPT-4o 原生图像生成现已在 ChatGPT 和 OpenAI 的 AI 视频生成产品 Sora 中上线,供该公司每月 200 美元的 Pro 计划订阅者使用。OpenAI 表示,该功能将很快向 ChatGPT 的 Plus 和免费用户以及使用该公司 API 服务的开发人员推出。
具有图像输出功能的 GPT-4o 比它有效取代的图像生成模型DALL-E 3 的“思考”时间更长,从而可以生成 OpenAI 所描述的更准确、更详细的图像。GPT-4o 可以编辑现有图像,包括其中有人的图像——对它们进行转换或“修复”细节,例如前景和背景对象。
OpenAI 没有透露它使用了哪些图像数据来实现新的图像生成功能。许多生成式人工智能供应商将训练数据视为竞争优势,因此对其及其相关信息讳莫如深。但训练数据细节也可能引发与知识产权相关的诉讼,这也是公司不愿透露太多信息的另一个原因。
OpenAI 提供了一份退出表格,允许创作者要求将其作品从其训练数据集中删除。该公司还表示,它尊重禁止其网络抓取机器人从网站收集训练数据(包括图像)的请求。
ChatGPT 升级后的图像生成功能紧随Google为其旗舰型号之一 Gemini 2.0 Flash 进行实验性的原生图像输出。这一强大功能在社交媒体上迅速走红——但原因未必是好的。Gemini 2.0 Flash 的图像组件几乎没有防护措施,允许人们去除水印并创建描绘受版权保护的人物的图像。