返回上一页  首页 | cnbeta报时: 10:45:27
GPT-4o 生图实测:光影、文字、细节栩栩如生
发布日期:2025-03-26 09:52:35  稿源:赛博禅心

ChatGPT 凌晨发了新东西,通过 4o 模型,创建靠谱的图像:光影、文字、细节栩栩如生通过对话,可以进一步修改:遮挡、倒影等等都处理的非常到位。



图片质量相当高,可直接用于科普插画,比如:分光三棱镜


继续对话,一致性相当好,比如让他画成书册:


只能说:斗宗强者,竟恐怖如斯,OpenAI 的箱子里,还是有东西的。

让我们细致看一看:本次更新,突破了以往的哪些边界。

文本渲染绝佳

一图胜千言,来感受一下。比如让他根据对话内容,来画一个菜单(文字是单独给的)


或者让他去画一个婚礼邀请(同样,文字单独给到)


多轮生成很棒

这套图像生成,是 GPT-4o 的原生功能,可通过对话,逐步进行图像完善,并保持内容一致。比如这个:


也比如我把橘猫放在了魔兽世界里


甚至来说,我还可以要求他生成 png 透明版


指令遵循很强

在生成图像的时候,4o 的指令遵循能力很强,可以处理包含 10-20 个不同物体的场景,并对物体与特征及关系的紧密绑定允许更好的控制。

比如:只有一滴红酒的空玻璃杯


prompt: show me a wine glass with only the tiniest drop of red wine in it.

比如:看不见的大象


Prompt: We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment, then show us that, perhaps mid-process - but the elephant itself is not shown at all

我还让他给画了个撸猫指南


Prompt: 4-step photo guide on how to pet a cat

上下文关联

如果很清楚知道自己要什么,可以直接上传图片给 ChatGPT,让参考风格、精准输出。比如给一些风格插画,然后要求 GPT 来生成一个三角形轮子的自行车


吐槽:为啥是英国专利

而我,作为炉石玩家,我让 ChatGPT 来生成一份奥特曼的专属卡片


Hhhhh 太真实了,GPT 觉得奥特曼上不了传说,种族属于“战吼”(特别能逼逼)

然后,还可以让他做个实体版... 稀有度变成了普通,技能变成了嘲讽,hhhhh认真的吗?


贯通现实知识

4o 的绘图,能够从大模型中直接获取到知识,生成与现实世界知识相符的图像,如:可以直接使用的鸡尾酒配方


Prompt: Make me a professionally shot photorealistic diagram of the top selling cocktails in my bar with recipes labeled on each drink. put the recipes on handwritten cards in front of each drink. The cards are brown, and the text is black. Background is white.Title is"4 most popular cocktails"

制作一款披萨


Prompt: A graphic of an Italian chef giving instructions on how to make authentic pepperoni pizza

动量定理和冲量定理


Prompt: 画一个有关冲量定理和动量定理的 infographic


Prompt:画一个肯德基的简体中文菜单,其中有一个套餐叫做“V 我 50”

风格多样

4o 的这个模型,能轻松绘制各种风格的图像。比如我让他用莫奈的风格,来画一只猫


Prompt:一只猫,莫奈风格

幻想风格的海豚地铁


Prompt: A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car, with bubbles and detailed water flow accurately simulated.

奥特曼在采棉花,颇有纪录片的范儿


Prompt: 山姆奥特曼正在采棉花

一些限制

当然,这个模型也存在一些问题:

对于长图像,会出现剪裁问题


可能产生幻觉,然后开始胡编乱造


难以准确渲染超过 20 个不同概念


多语言文本渲染:处理非拉丁语言(比如中文),不够准确


对特定部分要求编辑,可能会出 bug


密集文本下,效果会不好


以及...出于安全考虑,很多内容不允许被生成,比如:米老鼠大战皮卡丘的钞票


最后

OpenAI 这次的更新的确非常棒,真没得黑。

这项功能已经通过 ChatGPT & Sora 向 Plus、Pro、Team 和免费用户推出,替换 DaLLE 作为默认图像生成器。,Enterprise 和 Edu 用户也将很快更新,API 也将在数周内进行更新。

所以,不要小瞧 OpenAI,箱子里有货的。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 10:45:27

文字版  标准版  电脑端

© 2003-2025