谷歌Parti生成器依靠200亿参数将文本转成栩栩如生的图像
谷歌周四介绍了 Parti 文本转图像生成器项目的最新进展,可知通过 200 亿输入的训练,其已能够创建出栩栩如生的图像。不过为了避免 AI 数据集中存在的偏见风险,该公司并未通过公众发布的文本来展开训练。
据悉,Parti 全称为“Pathways Autoregressive Text-to-Image”(路径自回归文本转图像)。随着可使用参数数量的增长,其输出的图像也能够更加逼真。
本例中,Parti 在生成最终图像之前,已经研究了 200 亿量级的参数。相比之下,Imagen 是 Google 设计用于扩散学习的文本转图像生成器。
工作期间,它会通过向图像添加“噪声”来训练计算机模型,让它初步生成模糊的静态图像,然后模型会通过学习来尝试解码静态图像。
随着模型的改进,系统可以将一系列随机点,逐渐变成我们最终看到的栩栩如生的重新生成图像。
最后,除了 Parti 和 Imagen,我们还有听说过其它文本转图像模型 —— 比如 Dall-E、VQ-GAN+CLIP 和 Latent Diffusion Models 。