通义千问首个文生图模型开源：破解AI图像生成“写字”难题复杂中英文渲染效果惊艳

8月5日，通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image，这是通义千问系列中的首个图像生成基础模型，在复杂文本渲染和精确图像编辑方面进展显著。该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。

在多个公开基准测试中，包括GenEval、DPG、OneIG - Bench（通用图像生成），GEdit、ImgEdit、GSO（图像编辑）以及LongText - Bench、ChineseWord、TextCraft（文本渲染）等，Qwen-Image在各类生成与编辑任务中均获得SOTA。

在性能表现上，Qwen-Image能在不同场景中实现高保真文本渲染。例如，在海报制作中，它不仅能准确展示海报风格，还能保留人物姿势和神态刻画，准确生成指定的中英文文字；在分模块案例中，能完成排版并生成各部分的图标、标题和介绍文本；除此之外，即使纸张面积小且段落文字长，也能准确生成文字，还可在双语间灵活切换。

同时，Qwen-Image 在通用图像生成方面支持多种艺术风格，从照片级写实到印象派绘画，从动漫风格到极简设计，能灵活响应创意提示。

通义千问表示，希望Qwen-Image能进一步推动图像生成领域发展，降低视觉内容创作技术门槛，激发更多创新应用可能，同时期待社区积极参与和反馈，共同构建开放、透明、可持续发展的生成式AI生态。

目前，该模型已在魔搭社区与Hugging Face开源。