GPT-4o 生图实测：光影、文字、细节栩栩如生

ChatGPT 凌晨发了新东西，通过 4o 模型，创建靠谱的图像：光影、文字、细节栩栩如生，通过对话，可以进一步修改：遮挡、倒影等等都处理的非常到位。

图片质量相当高，可直接用于科普插画，比如：分光三棱镜

继续对话，一致性相当好，比如让他画成书册：

只能说：斗宗强者，竟恐怖如斯，OpenAI 的箱子里，还是有东西的。

让我们细致看一看：本次更新，突破了以往的哪些边界。

文本渲染绝佳

一图胜千言，来感受一下。比如让他根据对话内容，来画一个菜单（文字是单独给的）

或者让他去画一个婚礼邀请（同样，文字单独给到）

多轮生成很棒

这套图像生成，是 GPT-4o 的原生功能，可通过对话，逐步进行图像完善，并保持内容一致。比如这个：

也比如我把橘猫放在了魔兽世界里

甚至来说，我还可以要求他生成 png 透明版

指令遵循很强

在生成图像的时候，4o 的指令遵循能力很强，可以处理包含 10-20 个不同物体的场景，并对物体与特征及关系的紧密绑定允许更好的控制。

比如：只有一滴红酒的空玻璃杯

prompt: show me a wine glass with only the tiniest drop of red wine in it.

比如：看不见的大象

Prompt: We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment， then show us that， perhaps mid-process - but the elephant itself is not shown at all

我还让他给画了个撸猫指南

Prompt: 4-step photo guide on how to pet a cat

上下文关联

如果很清楚知道自己要什么，可以直接上传图片给 ChatGPT，让参考风格、精准输出。比如给一些风格插画，然后要求 GPT 来生成一个三角形轮子的自行车

吐槽：为啥是英国专利

而我，作为炉石玩家，我让 ChatGPT 来生成一份奥特曼的专属卡片

Hhhhh 太真实了，GPT 觉得奥特曼上不了传说，种族属于“战吼”（特别能逼逼）

然后，还可以让他做个实体版... 稀有度变成了普通，技能变成了嘲讽，hhhhh认真的吗？

贯通现实知识

4o 的绘图，能够从大模型中直接获取到知识，生成与现实世界知识相符的图像，如：可以直接使用的鸡尾酒配方

Prompt: Make me a professionally shot photorealistic diagram of the top selling cocktails in my bar with recipes labeled on each drink. put the recipes on handwritten cards in front of each drink. The cards are brown， and the text is black. Background is white.Title is"4 most popular cocktails"

制作一款披萨

Prompt: A graphic of an Italian chef giving instructions on how to make authentic pepperoni pizza

动量定理和冲量定理

Prompt: 画一个有关冲量定理和动量定理的 infographic

Prompt：画一个肯德基的简体中文菜单，其中有一个套餐叫做“V 我 50”

风格多样

4o 的这个模型，能轻松绘制各种风格的图像。比如我让他用莫奈的风格，来画一只猫

Prompt：一只猫，莫奈风格

幻想风格的海豚地铁

Prompt: A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car， with bubbles and detailed water flow accurately simulated.

奥特曼在采棉花，颇有纪录片的范儿